




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第九章 數值變量資料的統計分析統計學描述:統計學描述:選用恰當統計量結合恰當統計選用恰當統計量結合恰當統計圖、表,描述資料的分布規律或數理特征圖、表,描述資料的分布規律或數理特征。統計學推斷:統計學推斷:樣本樣本總體,統計量總體,統計量參數。參數。分析數據分析數據:例例9.19.1 某地用隨機抽樣的方法對某地用隨機抽樣的方法對140140名健康成年男名健康成年男性血清尿素氮(性血清尿素氮(BUNBUN)濃度進行檢測,所得數據)濃度進行檢測,所得數據如下,請編制頻數表和觀察頻數分布情況。如下,請編制頻數表和觀察頻數分布情況。1. 1. 下下 限:一個組的最小值限:一個組的最小值2. 2. 上上
2、限:一個組的最大值限:一個組的最大值3. 3. 組組 距:上限與下限之差距:上限與下限之差4. 4. 組中值:下限與上限之間的中點值組中值:下限與上限之間的中點值(1 1)求極差)求極差(rangerange):即最大值與最小):即最大值與最小值之差,又稱為全距。值之差,又稱為全距。 R=XR=X最大最大-X-X最小最小6.552.10 = 4.456.552.10 = 4.45(mmol/lmmol/l) (2 2) 決定組數、組段和組距:決定組數、組段和組距:根據研根據研究目的和樣本含量究目的和樣本含量n n 確定分組組數。相鄰確定分組組數。相鄰兩組段下限值之差稱兩組段下限值之差稱組距組距
3、,組距組距= =極差極差/ /組組數數。為方便計,組距為極差的十分之一。為方便計,組距為極差的十分之一, , 再略加調整。本例擬分再略加調整。本例擬分1212組。組。 4.45 / 12 = 0.37 0.4 4.45 / 12 = 0.37 0.4 (mmol/lmmol/l) 制定頻數表的制定頻數表的目的目的是為了簡化資料,顯是為了簡化資料,顯示出數據的分布規律,示出數據的分布規律,故組段數不易過多,故組段數不易過多,但也不能過少,否則但也不能過少,否則會掩蓋數據的會掩蓋數據的分布規分布規律。律。(3 3) 列出組段列出組段 每個組段的起點為該組下限,終點為上限,上限下限組距,第一組段包含
4、最小值,最后組段包含最大值。 各組段不能重疊,即同一個數據不能出現在兩個組段內,所以每一個組段都應該是半開半閉區間:下限,上限) 第一個組段:2.00,第二個組段:2.40第十二個組段:6.406.80或6.40,6.80*:最后一個組段應該同時標明上限和下限(4 4)列表劃記:列表劃記:采用劃記法分別將原始資料中各變量采用劃記法分別將原始資料中各變量值在頻數表中列出來,并且統計各組段變量值的個數,值在頻數表中列出來,并且統計各組段變量值的個數,即即頻數頻數。頻數分布圖頻數分布圖1 1描述頻數分布的類型(對稱分布、偏態分布)描述頻數分布的類型(對稱分布、偏態分布)某地居民2 3 8 人發 汞
5、含 量分布表02040608012345678發汞含量(u m o l / kg )人數正偏態(右偏態)正偏態(右偏態)負偏態(左偏態)負偏態(左偏態)學生成績分布圖0102030405060702025-35-45-55-65-75-85-95-100分 數人 數x12nXXXXXnn公式公式 :x112233123kkkfXf Xf Xf Xf XXfffffX 本組段下限值+下組段下限值其中2 k k:頻數表的組段數:頻數表的組段數 f f :頻數:頻數 :組中值,其中:組中值,其中i i=1,2,k k。ix表表9-3 1409-3 140名成年男子血清名成年男子血清BUNBUN濃度濃
6、度(mmol/L)(mmol/L)均數與標準差計算用表均數與標準差計算用表Lmmolffxx/41. 414080.61612121lg1lg(lglglg)lglgnnnGX XXXGXXXnnXGn幾何均數:變量對數值幾何均數:變量對數值的算術均數的反對數。的算術均數的反對數。 n計算幾何均數的計算幾何均數的觀察值應大于零觀察值應大于零1.1.直接法直接法100825lg50lg100lg50lg800lg400lg25lg200lglg1G1lglg()fXGf例例9-4 9-4 某地對某地對112112名兒童接種某種疫苗一個月后,測定了各名兒童接種某種疫苗一個月后,測定了各兒童血清抗體
7、滴度,結果如表兒童血清抗體滴度,結果如表9-49-4第(第(1 1)、()、(2 2)欄,試求平)欄,試求平均滴度。均滴度。55.471128415.187lglglg11fxfG112人的血清平均抗體效價為1:48。計算幾何均數應該注意的事項 變量值中不能有0或負數,因為0和負數不能取對數。u 不能同時有正有負。若全部是負值,計算時可先把負號去掉,得出結果后,再 加上負號。1()2nMX()(1)2212nnMXXn為奇數時為奇數時n為偶數時為偶數時 計算公式計算公式: :(50%)(50%)LmMnnfMLif 所 在 組 段 下 限 值至 該 下 限 值 的 累 計 頻 數組 距所 在
8、組 段 下 限 值 至 上 限 值 間 的 頻 數下限值下限值L L上限值上限值U Ui; fm中位數中位數M M)%50(Lfnix%X(100)%XXP 百分位數示意圖百分位數示意圖(二)百分位數(二)百分位數(percentile)n中位數是第50百分位數,用P50表示。(%)XXXLXiPLnXff 50505050()2LinMPLff1%50%2X例例 9.79.7 為了解本地兒童體內鉛負荷的現狀,某市兒保所為了解本地兒童體內鉛負荷的現狀,某市兒保所20062006年以隨機抽年以隨機抽樣的方法調查了該市樣的方法調查了該市340340名名7 7歲以下兒童的血鉛含量,試計算該資料的中位
9、歲以下兒童的血鉛含量,試計算該資料的中位數和數和P P2525、P P7575、P P959577. 081%253404225. 075. 025P28. 116450%340550.2525. 1M75. 1219%753403625. 050. 175P54. 2322%95340625. 050. 295P 例:設甲、乙、丙三人,采每人的耳垂血,然后作紅例:設甲、乙、丙三人,采每人的耳垂血,然后作紅細胞計數,每人數細胞計數,每人數5 5個計數盤,得結果如下(萬個計數盤,得結果如下(萬/mm/mm3 3)甲乙丙簡單,但僅利用了兩端點值,穩定性差。簡單,但僅利用了兩端點值,穩定性差。( (
10、一一) ) 全距(全距(RangeRange)R6.552.10 = 4.45(mmol/l)2575PP25LQP75UQP50P25P100P0P75P意義:意義:四分位數相當于中間一半變量值的極差,四分位數相當于中間一半變量值的極差,適用于偏態資料或兩端無確定數據的資料適用于偏態資料或兩端無確定數據的資料77.081%253404225.075.025P28.116450%340550.2525.1M75.1219%753403625.050.175P54.2322%95340625.050.295P75. 177. 07525PQPQUL,)/(98. 077. 075. 1lmolQ
11、QQLU優點:優點:與極差相比,不受兩端最大值,最小值的與極差相比,不受兩端最大值,最小值的影響,比較穩定影響,比較穩定缺點:缺點:沒有考慮到每一個具體變量值的變異程度沒有考慮到每一個具體變量值的變異程度(60-72) ( 66-72) ( 72-72) (78-72) ( 84-72) -12 -6 0 6 120)(xxxx(60-72)2 ( 66-72) 2 ( 72-72) 2 (78-72) 2 ( 84-72) 2 144 36 0 36 1442)(xx 0)(2xx60 66 72 78 8460 66 72 78 84NX22 )( 22()XN22()1XXSn總體方差總
12、體方差樣本方差樣本方差方差(方差(variance)是離均差平方和的均數,反映是離均差平方和的均數,反映一組數據的平均離散水平。一組數據的平均離散水平。l由于在實際工作中,往往得到的樣本資料,總體均數由于在實際工作中,往往得到的樣本資料,總體均數 是未知是未知的,所以只能用樣本均數的,所以只能用樣本均數 作為作為 的估計值,即用的估計值,即用 代代替替 ,用樣本例數,用樣本例數 n n 代替代替N N。但按公式計算的結果。但按公式計算的結果 通常通常比實際的比實際的 低。所以用低。所以用n n來代替來代替 N N 進行校正。得到進行校正。得到樣本方樣本方差差 2)(xx2)x(2sx2離均差平
13、方和離均差平方和 SSSS一組數據中可以自由取值的數據的個數( )當樣本數據的個數為 n 時,若樣本均值x 確定后,只有n-1個數據可以自由取值,其中必有一個數據則不能自由取值例如,樣本有3個數值,即x1=2,x2=4,x3=9,則 = 5。當 = 5 確定后,x1,x2和x3有兩個數據可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值,dfxx2()XNS2()1XXSn 離均差平方和離均差平方和SSSS總體標準差 用表示公 式:公 式:22()1XXnSn22()1fXfXfSf標準差的公式還可以寫成 :利用頻數表計算標準差的公式為:1)()(1
14、)()(0)(0)2222222nxxsNxnxxsNxxxiiiiii例例 對以下數據: 75, 76, 72, 69, 66, 72, 57, 68, 71, 72, 用直接法計算標準差。48984727675,698727675,102222XXn248984698 /105.41()101S次/分例有例有3 3組同齡男孩的體重組同齡男孩的體重( () )測量值如下,其平均體重都是測量值如下,其平均體重都是30 (30 () ) ,試分析其離散程度。試分析其離散程度。22222226 3028 3030 3032 3034 3015 13.16Xxns甲組()()()()()()xixi
15、ixf2iixf例例 頻數表法計算標準差。頻數表法計算標準差。if標準差應用標準差應用CVSX 100%u變異系數(coefficient of variation,CV) u常用于比較常用于比較度量單位不同度量單位不同或或均數相差懸殊均數相差懸殊的兩的兩組組( (或多組或多組) )資料的變異程度。資料的變異程度。 體重 2.26100% 10.14%22.29CV 身高 4.71100%3.83%123.10CV (觀察指標單位不同)(觀察指標單位不同)均數相差較大時:均數相差較大時:某 地 區 不 同 年 齡 男 子 身 高 ( cm) 的 變 異 程 度 年年 齡齡 組組 人人 數數 均
16、均 數數 標標 準準 差差 C CV V( (% %) ) 3 3- -3 3. .5 5歲歲 1 10 00 0 9 96 6 1 1 3 3. .1 1 3 3. .2 2 3 30 0- -3 35 5歲歲 1 10 00 0 1 17 70 0 2 2 5 5 0 0 0 0 3 3 物理學家、數學家物理學家、數學家卡爾卡爾弗里德里希弗里德里希高高斯斯 05101520251091131171211251291330246810105109113117121125129133107 109 111 113 115 117 119 121 123 125 127 129 131 133圖
17、2-4 頻數分布逐漸接近正態分布示意服從正態分布的變量服從正態分布的變量X X的概率密度函數的概率密度函數f(X)f(X)為為 212(916)1X2XfeX(1)在直角坐標上方呈鐘型曲線,兩端與X軸永不相交,且以X為對稱軸,左右完全對稱。 (2)在X處,()f X取最大值,其值為( )12f;X越遠離,()f X值越小。 (3)正態分布有兩個參數,即位置參數和形態參數。若固定,改變值,曲線沿著X軸平行移動,其形狀不變若固定,越小,曲線越陡峭;反之,越大,曲線越平坦 xCAB 和和 對對正態曲線的影響正態曲線的影響00.10.20.30.40.5-4-3-2-101234 圖 2-5 正態分布
18、位置變換示意圖 00.10.20.30.40.50.60.70.80.9-6-5 -4-3-2 -10123456=0.5 =1=2 圖2-6 正態分布形態變換示意圖 22()21()2XXF XedXX軸與正態曲線所夾面積恒等于1或100%; 區間的面積為68.27% 區 間96.1的 面 積 為95.00%, 區間58. 2的面積為99.00%。見圖2 7。 正態曲線面積分布示意圖正態曲線面積分布示意圖 正態分布是一個分布族正態分布是一個分布族,對應于不同的參數和會產生不同位置、對應于不同的參數和會產生不同位置、不同形狀的正態分布。不同形狀的正態分布。 為 了 應 用 方 便 , 令 :
19、Xu 標準正態分布為實際應用方便,將一般正態分布轉換為為實際應用方便,將一般正態分布轉換為標準正態分布標準正態分布。轉換公式為:。轉換公式為: u u稱為標準正態變量稱為標準正態變量 服從標準服從標準正態分布正態分布的變量的變量u u的概率的概率密度函數密度函數f(u)f(u)為為 212(917)12uf uueu 用用N(0,1)表示,即表示,即u值的均數為值的均數為0,標準差為,標準差為1的的正態分布正態分布。 xu標準正態變換標準正態變換 (1) 正態分布正態分布 (2) 標準正態分布標準正態分布圖圖9-4 正態分布與標準正態分布的面積與縱高正態分布與標準正態分布的面積與縱高按式按式(
20、9-16)(9-16),根據,根據X X的不同取值,繪出正態分布的圖形(的不同取值,繪出正態分布的圖形(1)1)。按式按式(9-17)(9-17),根據,根據u u的不同取值,繪出標準正態分布的圖(的不同取值,繪出標準正態分布的圖(2)2)。Xu0 . 00 . 10 . 20 . 30 . 4- 4- 3- 2- 101234Zf ( Z )00.010.020.030.040.050.060.0757606366697275788184Xf(X) 正態分布 標準正態分布如果,隨著變量值的變異,例數突如果,隨著變量值的變異,例數突然地增多或突然地減少,或長距離然地增多或突然地減少,或長距離地
21、間斷,都表示資料的同質性可能地間斷,都表示資料的同質性可能較差,應進一步查明原因。較差,應進一步查明原因。正態分布的特征正態分布是單峰分布:正態分布是單峰分布:X X= = ( (峰峰) )正態分布以均數為中心,左右完全對稱正態分布以均數為中心,左右完全對稱 。正態分布有兩個參數(正態分布有兩個參數(parameterparameter)。)。某些指標經變換后服從正態分布。某些指標經變換后服從正態分布。正態曲線下的面積分布有一定的規律。正態曲線下的面積分布有一定的規律。 正態曲線下的面積特點正態曲線下的面積特點橫軸上曲線下的面積為橫軸上曲線下的面積為1;正態曲線和標準正態曲線下正態曲線和標準正
22、態曲線下,橫軸上分別對稱于橫軸上分別對稱于或或0的面積相等的面積相等;常用的分布點有常用的分布點有: 正態分布正態分布 標準正態分布標準正態分布 面積面積 1 +1 1 + 1 68.27% 1.96 +1.96 1.96 +1.96 95.00% 2.58 +2.58 2.58 +2.58 99.00%圖圖9-6 9-6 正態曲線與標準正態曲線的面積分布正態曲線與標準正態曲線的面積分布為了省去計算的麻煩,編制成了為了省去計算的麻煩,編制成了“標準正態分布曲線標準正態分布曲線下的面積下的面積”(表(表9-89-8)。通過查表可求出正態曲線下某區間)。通過查表可求出正態曲線下某區間的面積,進而的
23、面積,進而估計該區間觀察例數占總例數的百分數估計該區間觀察例數占總例數的百分數或變或變量值落在該區間的概率。量值落在該區間的概率。三三正態分布的應用正態分布的應用(1 1)估計變量值的頻數分布)估計變量值的頻數分布(2 2)制定參考值范圍)制定參考值范圍(3 3)質量控制)質量控制(4 4)正態分布是很多統計方法的基礎)正態分布是很多統計方法的基礎例 已得某地110名7歲男童身高 ,現欲估計該地身高界于116.5cm 到119.0cm范圍內的7歲男童 比 例 及 1 1 0 名 7 歲 男 童 中 身 高 界 于116.5119.0cm范圍的人數。 cmScmX72. 4,95.121(一)估計變量值的頻數分布(一)估計變量值的頻數分布15. 172. 495.1215 .1161u63. 072. 495.1210 .1192u如:(x1,x2)(u1,u2)查u界值表求出面積-4-3-2-10123400.050.10.150.20.250.30.350.4%92.131251. 02643. 0)()(12uu、意義、意義單、雙側問單、雙側問題題90%95%99%95%圖圖 健康人與肝病病人的肝大指數分布健康人與肝病病人的肝大指數分布(所擬合的兩個正態曲線各按(所擬合的兩個正態曲線各按100%面積繪制)面積繪制)肝肝 大大 指指 數數健康人健康人H0肝病病人
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學校教學群管理制度
- 學校電設備管理制度
- 學校鋼琴室管理制度
- 學生助教團管理制度
- 學科實驗室管理制度
- 安全與責任管理制度
- 安全設施室管理制度
- 實訓室部門管理制度
- 審計局財務管理制度
- 客餐廳配電管理制度
- 銀行網點數字營銷整體解決方案
- 杭州市西湖區部分校教科版六年級下冊期末考試科學試卷(原卷版)
- 雙液注漿施工方案
- 民兵訓練管理規定
- 2025年國家公務員考試行測常識題庫及答案(共300題)
- 2024冀少版七年級下冊生物期末復習知識點提綱(詳細版)
- 2025年《義務教育小學體育課程標準測試卷2022版》測試題庫及答案
- 全國衛生健康系統職業技能競賽(傳染病防治監督)參考試題(附答案)
- 人工智能算法與市場營銷的融合研究
- DBJ50-T-157-2022房屋建筑和市政基礎設施工程施工現場從業人員配備標準
- 國家開放大學專本科《經濟法學》期末紙質考試總題庫2025春期版
評論
0/150
提交評論