第二章 定量資料的統(tǒng)計描述
主要內(nèi)容
1、頻數(shù)與頻數(shù)分布
2、定量變量的特征數(shù)
3、常用統(tǒng)計圖表
4、案例討論
5、電腦實驗
第一節(jié) 頻數(shù)與頻數(shù)分布(frequency and frequency distribution)
特點:實測值之間有間斷,或?qū)崪y值可數(shù)。
頻數(shù)表(頻數(shù)分別表)可直接反映變量的分布規(guī)律。頻數(shù)分布圖可用直條圖表達(dá)。
二、連續(xù)型定量變量的頻數(shù)分布
特點:實測值之間沒有間斷,或?qū)崪y值不可數(shù)。實測值之間的間斷可以忽略時,可近似的視為連續(xù)型變量。
劃分特定組距后的頻數(shù)表(頻數(shù)分布表)才能反映變量的分布規(guī)律。頻數(shù)分布圖可用直方圖表達(dá),其縱坐標(biāo)為頻率密度,即頻率/組距,直方圖的面積之和等于1。
例2.1 120名18~35歲健康男性居民血清鐵蛋白含量(μmol/L)
7.42 | 8.65 | … | 21.62 | 23.07 |
20.38 | 8.40 | … | 24.14 | 23.77 |
18.36 | 23.04 | … | 15.38 | 18.61 |
14.27 | 17.40 | … | 19.82 | 17.48 |
14.89 | 18.37 | … | 15.83 | 18.54 |
24.52 | 19.26 | … | 17.40 | 21.36 |
17.14 | 13.77 | … | 25.61 | 19.53 |
14.77 | 14.37 | … | 19.12 | 15.31 |
21.75 | 19.47 | … | 17.55 | 19.26 |
12.65 | 18.48 | … | 14.18 | 16.52 |
1. 頻數(shù)表的編制步驟
(1)求極差(range):即最大值與最小值之差,又稱為全距。
本例極差: R=29.64-7.42=22.22(μmol/L)
(2) 決定組數(shù)、組段和組距:根據(jù)研究目的和樣本含量n確定。組距=極差/組數(shù),通常分8-15個組,為方便計,組距參考極差的十分之一, 再略加調(diào)整。
本例i= R/10=22.22/10=2.222≈2。
(3) 列出組段:第一組段的下限略小于最小值,最后一個組段上限必須包含最大值,其它組段上限值忽略。
(4) 劃記計數(shù):用劃記法將所有數(shù)據(jù)歸納到各組段,得到各組段的頻數(shù)。
120例健康男性居民血清鐵蛋白含量(μmol/L)頻數(shù)表
組段 (1) | 頻數(shù),f | 頻率(%) (3) | 累計頻數(shù) (4) | 累計頻率(%) (5) |
6~ | 1 | 0.83 | 1 | 0.83 |
8~ | 3 | 2.50 | 4 | 3.33 |
10~ | 6 | 5.00 | 10 | 8.33 |
12~ | 8 | 6.67 | 18 | 15.00 |
14~ | 12 | 10.00 | 30 | 25.00 |
16~ | 20 | 16.67 | 50 | 41.67 |
18~ | 27 | 22.50 | 77 | 64.17 |
20~ | 18 | 15.00 | 95 | 79.17 |
22~ | 12 | 10.00 | 107 | 89.17 |
24~ | 8 | 6.67 | 115 | 95.83 |
26~ | 4 | 3.33 | 119 | 99.17 |
28~30 合計 | 1 | 0.83 | 120 | 100.00 |
120 | 100 | — | — |
120例健康男性居民血清鐵蛋白含量(μmol/L)分布圖
2. 頻數(shù)表的分布特征
①集中趨勢(central tendency):變量值集中位置。本例在組段“18~”。
——平均水平指標(biāo)
②離散趨勢(tendency of dispersion):變量值圍繞集中位置的分布情況。本例14~24,共有89人,占74.17%;離“中心”位置越遠(yuǎn),頻數(shù)越小;且圍繞“中心”左右對稱。
——變異水平指標(biāo)
頻數(shù)分布的類型:
對稱分布與偏態(tài)分布(集中位置偏向小的一側(cè)叫正偏態(tài),反之叫負(fù)偏態(tài))
頻數(shù)表的主要用途:
1. 揭示分布類型
2. 發(fā)現(xiàn)特大值和特小值
3. 計算集中趨勢指標(biāo)與離散趨勢指標(biāo)
第二節(jié) 定量變量的特征數(shù)
一、描述集中趨勢的統(tǒng)計指標(biāo)
總稱為平均數(shù)(average)反映了資料的集中趨勢( central tendency )。常用的有:
1. 算術(shù)均數(shù)(arithmetic mean),簡稱均數(shù) (mean)
2. 幾何均數(shù)(geometric mean)
3. 中位數(shù) (median)
4. 眾數(shù)(mode)
5. 調(diào)和均數(shù)(harmonic mean)
1. 均數(shù)(mean)
⑴計算
①直接法
⑵特性
⑶應(yīng)用
①反映一組同質(zhì)觀察值平均的數(shù)量水平。
②適用于單峰對稱分布,尤其適用于描述正態(tài)或近似 正態(tài)分布資料的集中趨勢。
③描述正態(tài)分布的特征。
2. 幾何均數(shù)(geometric mean)
⑴計算
① 直接法
幾何均數(shù):變量對數(shù)值的算術(shù)均數(shù)的反對數(shù)。
②加權(quán)法
⑵注意事項
、龠m用條件:呈倍數(shù)關(guān)系的等比資料或?qū)?shù)正態(tài)分布(正偏態(tài))資料;如抗體滴度資料。
、谟^察值若有0或負(fù)值,不宜直接計算幾何均數(shù)。
、塾^察值不能同時有正負(fù)值。
3. 中位數(shù)(median)
⑴定義:
中位數(shù)是將一批數(shù)據(jù)從小至大排列后位次居中的數(shù)據(jù)值,符號為M,反映一批觀察值在位次上的平均水平。
⑵適用條件:
適合各種類型的資料。尤其適合于
① 大樣本偏態(tài)分布的資料;
② ②資料有不確定數(shù)值;
③ ③資料分布不明等。
⑶計算
① 直接法
特點:僅僅利用了中間的1~2個數(shù)據(jù)
②
4. 眾數(shù)(mode)
出現(xiàn)次數(shù)(或頻數(shù))最多的觀察值;在頻數(shù)分布圖中對應(yīng)于高峰所在位置的觀察值。適用于大樣本;較粗糙。
均數(shù)、中位數(shù)、眾數(shù)三者關(guān)系
正態(tài)分布時: 均數(shù)=中位數(shù)=眾數(shù)
正偏態(tài)分布時:均數(shù)>中位數(shù)>眾數(shù)
負(fù)偏態(tài)分布時:均數(shù)<中位數(shù)<眾數(shù)
二、描述離散趨勢的特征數(shù)
反映數(shù)據(jù)的離散度( Dispersion )。即個體觀察值的變異(variation)程度。常用的指標(biāo)有:
1.極差Range (全距)
2.百分位數(shù)與四分位數(shù)間距Percentile andQuartile range
3.方差 Variance
4.標(biāo)準(zhǔn)差Standard Deviation
5.變異系數(shù) Coefficient ofVariation
1.極差Range (全距)
2.百分位數(shù)與四分位數(shù)間距Percentile and Quartile range
QR=P75- P25=Q3-Q1=QU-QL
3.方差 Variance
方差 (variance)也稱均方差(mean squaredeviation),樣本觀察值的離均差平方和的均值。表示一組數(shù)據(jù)的平均離散情況。
自由度是數(shù)學(xué)名詞,在統(tǒng)計學(xué)中,n個數(shù)據(jù)如不受任何條件的限制,則n個數(shù)據(jù)可取任意值,稱為有n個自由度。若受到k個條件的限制,就只有(n-k)個自由度了。
4.標(biāo)準(zhǔn)差Standard Deviation
⑴計算
①直接法
5.變異系數(shù) Coefficient of Variation
適用條件:①觀察指標(biāo)單位不同,如身高、體重
②同單位資料,但均數(shù)相差懸殊
變異指標(biāo)小結(jié)
1.極差較粗,適合于任何分布
2.標(biāo)準(zhǔn)差與均數(shù)的單位相同,最常用,適用于正態(tài)分布和近 似正態(tài)分布的資料
3.變異系數(shù)主要用于單位不同或均數(shù)相差懸殊的資料
4.平均指標(biāo)和變異指標(biāo)分別反映資料的不同特征,
常配套使用如 :正態(tài)分布:均數(shù)、標(biāo)準(zhǔn)差;
偏態(tài)分布:中位數(shù)、四分位數(shù)間距
對數(shù)正態(tài)分布:幾何均數(shù)、幾何標(biāo)準(zhǔn)差
三、描述分布形態(tài)的特征數(shù)
1. 偏度系數(shù)
2. 峰度系數(shù)
第三節(jié) 常用統(tǒng)計圖表
一、統(tǒng)計表
統(tǒng)計表(statistical table)和統(tǒng)計圖(statistical chart)是統(tǒng)計描述的重要工具。醫(yī)學(xué)科學(xué)研究資料經(jīng)過整理和計算各種必要的統(tǒng)計指標(biāo)后,所得結(jié)果除了用適當(dāng)文字說明以外,常用統(tǒng)計表和統(tǒng)計圖表達(dá)分析結(jié)果。統(tǒng)計圖表可以對于數(shù)據(jù)進(jìn)行概括、對比或做直觀的表達(dá)。統(tǒng)計表和統(tǒng)計圖不僅便于閱讀,而且便于分析比較。
1.概念:指在科技報告中,常將統(tǒng)計分析的事物
及其指標(biāo)用表格列出,以反映事物的內(nèi)在規(guī)律性和
關(guān)聯(lián)性。
2.作用:
1)避免繁雜的文字?jǐn)⑹?/p>
2)便于計算
3)便于事物間的比較分析
3. 統(tǒng)計表的結(jié)構(gòu)
從外形上看,統(tǒng)計表由標(biāo)題、標(biāo)目(包括橫標(biāo)目、縱標(biāo)目)、線條、數(shù)字及必要的文字說明和備注5部分構(gòu)成。其基本格式如表1:
1)標(biāo)題:概括說明表的中心內(nèi)容,要求用詞簡練、確切。必要時注明資料的時間、地點,寫在表的上端中央。
注意:防止標(biāo)題過于簡略或過于繁雜,有的甚至不寫標(biāo)題。
2)標(biāo)目:要求文字簡明,有單位的標(biāo)目要 注明單位。橫標(biāo)目位于表的左側(cè),說明各橫行數(shù)字的含義?v標(biāo)目位于表的右側(cè),向下說明各縱行數(shù)字的含義。
注意:防止標(biāo)目過多,層次不清。
3)線條:只需要頂線、底線及縱標(biāo)目下面與合計上面的橫線。
注意:線條不宜過多,表的左上角不宜有斜線,表內(nèi)不能有縱線。
4)數(shù)字:表內(nèi)數(shù)字一律用阿拉伯?dāng)?shù)字表示,同一個指標(biāo)的數(shù)字精確度應(yīng)當(dāng)一致,表內(nèi)不宜有空格,無數(shù)字醫(yī)學(xué)三基用“—”表示,數(shù)字為0,則填寫0。
5)備注:表格一般不列備注或其他文字說明,如有特殊情況需要說明時可用“*”標(biāo)出,將文字說明寫在表格的下面。
從內(nèi)容上看,每張表都有主語和謂語。主語指被研究的事物,如表2-5中的藥物分組,一般置于表的左側(cè);謂語指說明主語的各項統(tǒng)計指標(biāo),如表2-5中的“治愈”和“未愈”、“合計”,一般置于表的右側(cè),主語和謂語結(jié)合起來構(gòu)成一個完整的句子。如表 2-5可讀成用替硝唑治療組治愈25例,未愈4例,合計29例。
4.統(tǒng)計表的種類
根據(jù)說明事物的主要標(biāo)志(主語)的復(fù)雜程度,統(tǒng)計表可以分成簡單表和復(fù)合表。
l.簡單表:只有一種主要標(biāo)志,即主語按一個標(biāo)志分組。
2.復(fù)合表:有兩種或兩種以上的標(biāo)志,即主語按多個標(biāo)志分組。在安排上可以將部分主語放在表的上方與謂語配合起來。
5.編制統(tǒng)計表的基本要求
1)重點突出,簡單明了。即一張表只包括一個中心內(nèi)容,表達(dá)一個主題。
2)主謂分明,層次清楚。即主謂語的位置準(zhǔn)確,標(biāo)目的安排及分組要層次清楚,符合專業(yè)邏輯。簡單表只有一個分組標(biāo)志,一般作為橫標(biāo)目,而縱標(biāo)目就是統(tǒng)計指標(biāo)名稱。復(fù)合表有兩個以上分組標(biāo)志,一般把其中主要的和分項較多的一個作為橫標(biāo)目,而其余的則安排在縱標(biāo)目上。
3)數(shù)據(jù)準(zhǔn)確、可靠。
6.統(tǒng)計表的審查與修改
統(tǒng)計表制作是否良好,可以從以下幾方面檢查:
1).標(biāo)題是否正確
2).主謂語的排列是否合適,標(biāo)目是否組合重復(fù)。
3).表線是否過多過密。
某地1974年111例鉤端螺旋體病患者發(fā)病季節(jié)、年齡和職業(yè)構(gòu)成資料如表12-4所示,請按照編制統(tǒng)計表的基本要求,檢查此表編制的是否合適,如不合適,請指出并修改成正確表。
表12-4的缺點是:
1)標(biāo)題不確切,并且未注明時間與地點。
2)發(fā)病季節(jié)、年齡、職業(yè)三項指標(biāo)放在一起,內(nèi)容繁雜,不能突出重點。
3)標(biāo)目設(shè)計不合理。人數(shù)、%多次重復(fù),不便于比較分析。
4)表內(nèi)文字和線條過多。
某醫(yī)院對麥牙根糖漿治療急性慢性肝炎161例的療效,資料如表12-8,指出缺點并加以改進(jìn)。
缺點是:1)標(biāo)題過于簡單,不能概括表的內(nèi)容。
2)標(biāo)目組合重復(fù)。
3)主謂語排列不當(dāng)。
二、統(tǒng)計圖
1. 概念:利用點的位置、線段的升降、直條的長短和面積的大小等各種幾何圖形來表達(dá)統(tǒng)計資料和指標(biāo).
2.作用:它將研究對象的特征、內(nèi)部構(gòu)成、相互關(guān)系、對比情況、頻數(shù)分布等情況形象而生動地表達(dá)出來,更直觀地反映出事物間的數(shù)量關(guān)系,更易于比較和理解。但對數(shù)量的表達(dá)較粗略,從圖中不能獲得確切數(shù)字。
醫(yī)學(xué)中常用的統(tǒng)計圖有:
直條圖、百分條圖、圓圖、普通線圖、半對數(shù)線圖、直方圖、箱式圖、散點圖、統(tǒng)計地圖
3. 制圖的基本要求
統(tǒng)計圖通常由標(biāo)題、標(biāo)目、刻度、圖域和圖例5部分組成。
1)標(biāo)題:簡明扼要地說明資料的內(nèi)容、時間和地點.一般寫在圖的下方中央。
2)圖域:即制圖空間。除圓圖外,一般用直角坐標(biāo)系第一象限的位置表示圖域,或者用長方形的框架表示。不同事物用不同線條(實線、虛線、點線)或顏色表示。
圖域的高:寬比例習(xí)慣上為5:7。
3)標(biāo)目:分為縱標(biāo)目和橫標(biāo)目,表示縱軸和橫軸數(shù)字的意義,一般有度量衡單位。
4)圖例:在對比關(guān)系較為復(fù)雜的統(tǒng)計圖中,為使讀者易于分辨各種圖形的意義,可以設(shè)置圖例。圖例通常放在橫軸與標(biāo)題之間。
5)刻度:即縱軸與橫軸上的坐標(biāo)。排列方法與直角坐標(biāo)系的排法一致,刻度數(shù)值按從小到大的順序,縱軸由下向上,橫軸由左向右,一律用等距表明。
4. 常用統(tǒng)計圖的繪制方法及要求
繪制統(tǒng)計圖時要根據(jù)資料的性質(zhì)和分析的目的選擇適當(dāng)?shù)膱D形。
1)直條圖
直條圖(bar graph):適用于性質(zhì)相似而不連續(xù)的資料。用等寬的直條的長短來表示各獨立指標(biāo)數(shù)值大小和它們之間的對比關(guān)系。指標(biāo)既可以是絕對數(shù),也可以是相對數(shù)。為便于比較,被比較的指標(biāo)一般按大小順序排列。
A)單式直條圖 只有一個統(tǒng)計指標(biāo),一個分組因素 。如根據(jù)表2-6繪制成圖2-6。
B)復(fù)式條圖 具有兩個統(tǒng)計指標(biāo),兩個及以上分組因素。如根據(jù)表2-7繪制成的圖2-7。
繪制直條圖時應(yīng)注意
1.坐標(biāo):一般以橫軸為基線,表示各個調(diào)查項目?v軸尺度必須從0開始,表示各個項目相應(yīng)的數(shù)據(jù),而且要等距,否則會改變各對比組間的比例關(guān)系。
2.寬度:各直條的寬度應(yīng)相等,各直條的間隔也應(yīng)一致。條間隔應(yīng)為條寬的一半或等寬。
3.排列:直條一般可按高低順序排列,以便于比較。但如果各指標(biāo)間需要有一定的順序時,也可按
規(guī)定的順序排列。
注意:復(fù)式條圖中組內(nèi)各直條排列次序要前后一致,并加以圖例。
2). 百分條圖(percent bargraph)
百分條圖:適用于構(gòu)成比資料。
用矩形長條的面積表示事物全部,而用其中各段表示各構(gòu)成部分。
繪制百分條圖時應(yīng)注意以下幾點:
1.將全體數(shù)量繪制成一長條,長度和寬度可以任意選擇,將長條全長分為10格,每格代表10%,總長為100%。
2.將直條全長按構(gòu)成比分為幾段,在圖上標(biāo)出各部分構(gòu)成比的數(shù)值,并用圖例說明各部分的名稱。
3.兩種或多種類似的構(gòu)成比資料相互比較時,可以繪制兩個或多個長度、寬度都相等的直條,在同一起點上依次平行排列,各直條之間留有一定空隙,一般為直條寬度的一半。
表2-8 兩種脫落牙再植效果
效果 嵌入性脫位牙 構(gòu)成比(%) 脫落牙 構(gòu)成比(%) |
成功 12 30.00 20 40.00 良好 12 30.00 7 14.00 較好 12 30.00 13 26.00 失敗 4 10.00 10 20.00 |
合計 40 100.00 50 100.00 |
3). 圓圖(circle graph or pie graph)
圓圖:是一種構(gòu)成圖,適用于構(gòu)成比資料。
注意以下幾點:
1)先繪圓,將構(gòu)成比乘以3.60,即得各構(gòu)成部分所占的圓心角的度數(shù)。
2)以相當(dāng)于時鐘的9點或12點的位置為起點依次排列各個扇形。
3)扇形內(nèi)要注明簡要文字和百分比。
4)兩種或多種類似的構(gòu)成比資料相互比較時,可在同一水平線或同一豎線上作直徑相等的圓圖,并注意各構(gòu)成部分排列次序要一致。
4. 線圖(普通線圖 line graph)
線圖:適用于連續(xù)性變量的資料。
用線段的升降來表示統(tǒng)計指標(biāo)的變化趨勢,如某事物在時間上的發(fā)展變化,或某現(xiàn)象隨另一現(xiàn)象變遷的情況。
繪制線圖時應(yīng)注意以下幾點:
1)橫軸代表分組標(biāo)志,縱軸代表統(tǒng)計指標(biāo)。橫軸和縱軸都是算術(shù)尺度。
2)相鄰兩點用直線連接,也就是說圖線應(yīng)按實際數(shù)字繪制成折線,而不能任意修改為光滑曲線。
3)同一圖內(nèi)不應(yīng)繪制太多的曲線,一般不宜超過4-5條。若有幾根線,應(yīng)用不同顏色或不同圖線表示,并附圖例說明。
4)在繪圖時,一定要注意縱橫軸比例,由于比例不同,給人的印象也不同。
5. 半對數(shù)線圖(semi-logarithmiclinear graph)
半對數(shù)線圖 用來比較兩種或多種事物的相對變化速度。
繪制半對數(shù)線圖時應(yīng)注意以下幾點:
1)在半對數(shù)坐標(biāo)紙上作圖:如無半對數(shù)坐標(biāo)紙,也可將數(shù)據(jù)轉(zhuǎn)換成對數(shù)值,然后在普通坐標(biāo)紙上作圖。
2)縱軸和橫軸:橫軸用算數(shù)尺度表示各分組標(biāo)志,縱軸用對數(shù)尺度表示指標(biāo)數(shù)值的大小。
6. 直方圖 (histogram)
適用于連續(xù)變量的頻數(shù)分布資料。常用橫軸表示變量(即被觀察對象),縱軸表示頻數(shù)或頻率。
直方圖用矩形面積代表各組頻數(shù)或頻率,各矩形面積總和代表各組頻數(shù)或頻率的總和。
繪制直方圖應(yīng)注意以下幾點:
1.縱軸的刻度必須從“0”開始,而橫軸的刻度可按實際范圍制定。
2.作圖時,各直條的寬度應(yīng)等于組距,高度應(yīng)等于該組的頻數(shù)或頻率。如果各組段的組距不同,必須換算成等距后才能作圖。
7. 箱圖(box plot)
箱圖:用于比較兩組或多組數(shù)據(jù)的直觀比較分析,描述其分布特征。一般選用5個描述統(tǒng)計量(最小值、P25、中位數(shù)、P75、最大值)來繪制 。
1.用圖表示某地區(qū)近30年三種疾病的發(fā)病率,在各年度的動態(tài)發(fā)展速度情況,宜繪制( )
A 普通線圖 B 直方圖 C 直條圖 D 半對數(shù)線圖
2. 某地區(qū)兩年的三種死因別死亡率,若用統(tǒng)計圖表示出來可選用( )
A 復(fù)式線圖 B 百分條圖 C 復(fù)式直條圖 D 直方圖
3. 反映定量變量觀察數(shù)據(jù)集中位置的指標(biāo)是( )
A 標(biāo)準(zhǔn)差 B 標(biāo)準(zhǔn)誤 C 頻率 D均數(shù)
4. 在正態(tài)分布條件下,表示變量值變異情況的指標(biāo)最常用的是( )
A 標(biāo)準(zhǔn)差 B 標(biāo)準(zhǔn)誤 C 變異系數(shù) D 百分位數(shù)
5. 變異系數(shù)越大說明( )
A 標(biāo)準(zhǔn)差越大 B 標(biāo)準(zhǔn)差、平均數(shù)都大
C 以均數(shù)為準(zhǔn)變異程度大 D 平均數(shù)小
6. 在服從正態(tài)分布N(μ,σ2)條件下,樣本標(biāo)準(zhǔn)差S的值( )
A 與集中趨勢有關(guān) B 與觀察例數(shù)n無關(guān)
C 與平均數(shù)有關(guān)D 與個體的變異程度有關(guān)
7. 已知某疾病患者10人的潛伏期(天)分別為:6,13,5,9,12,10,8,11,8,>12,其潛伏期的平均水平約為( )
A 9天 B 9.5天 C 10天 D 11天