




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據描述性分析第一頁,共七十一頁,2022年,8月28日內容分布均值、方差的數據特征數據的分布二元數據的數字特征及相關系數誤差壞值的剔除第二頁,共七十一頁,2022年,8月28日內容分布均值、方差的數據特征數據的分布二元數據的數字特征及相關系數誤差壞值的剔除第三頁,共七十一頁,2022年,8月28日數據描述性分析數據分析研究的對象是數據,它們是個觀測值:
如果這個觀測值就是所要研究對象的全體,那么數據分析的任務就是提取數據中包含的有用的信息。如果數據是從總體中抽出的樣本,就要分析推斷樣本中包含的總體的信息。
,第四頁,共七十一頁,2022年,8月28日均值、方差等數字特征一元數據的數字特征主要是以下幾種。設個觀測值為其中稱為樣本容量。1均值:即是的平均數:
均值表示數據的集中位置。第五頁,共七十一頁,2022年,8月28日均值、方差等數字特征2方差、標準差與變異系數方差是描述數據取值分散性的一個度量,其量綱是數據量綱的平方。標準差第六頁,共七十一頁,2022年,8月28日均值、方差等數字特征
變異系數:刻畫數據相對分散性的度量CV=校正平方和
CSS=未校平方和
USS
=
第七頁,共七十一頁,2022年,8月28日均值、方差等數字特征3偏度與峰度偏度與峰度是刻畫數據的偏態、尾重程度的度量。它們與數據的矩有關。數據的矩分為原點矩與中心矩。
k階原點矩
K階中心矩第八頁,共七十一頁,2022年,8月28日均值、方差等數字特征偏度其中s是標準差。偏度是刻畫數據對稱性的指標。關于均值對成的數據其偏度為0,右側更分散的數據偏度為正,左側更分散的數據偏度為負。
頻數頻數頻數偏向左<0對稱=0偏向右>0第九頁,共七十一頁,2022年,8月28日均值、方差等數字特征峰度當數據的總體分布為正態分布時,峰度近似為0;當分布較正態分布的尾部更為分散時,峰度為正,否則峰度為負。當峰度為正時,兩側極端數據較多;當峰度為負時,兩側極端數據較少。第十頁,共七十一頁,2022年,8月28日總體的數據特征設觀測數據是由總體X中取出的樣本,總體的分布函數是F。當X為離散分布時,總體的分布可由概率分布列刻畫:總體為連續分布時,總體的分布可由概率密度刻畫。連續分布中最重要的是正態分布,它的概率密度及分布函數分別為具有正態分布的總體成為正態總體
第十一頁,共七十一頁,2022年,8月28日總體的數據特征與樣本數字特征對應的是總體的數字特征總體均值
總體方差總體標準差總體變異系數
第十二頁,共七十一頁,2022年,8月28日總體的數據特征總體原點矩(k階)總體中心矩(k階)總體偏度總體峰度第十三頁,共七十一頁,2022年,8月28日偏度為正的概率密度偏度為負的概率密度f(x)f(x)xx第十四頁,共七十一頁,2022年,8月28日總體峰度是以同方差的正態分布為標準,比較總體分布尾部分散性的指標。細尾,峰度為負正態分布,總體峰度為0粗尾,峰度為正第十五頁,共七十一頁,2022年,8月28日總體數字特征和樣本數字特征根據統計學的結果,樣本數字特征是相應的總體數字特征的矩估計。當總體數字特征存在時,相應的樣本數字特征是總體數字特征的相合估計,從而當n較大時,有第十六頁,共七十一頁,2022年,8月28日總體數字特征和樣本數字特征當觀測數據是所要研究對象的全體時,數據的分布即總體分布,我們認為取得每一個觀測數據是等可能性的,即為;總體分布是離散均勻分布:對這種情況,數據數字特征即總體數字特征。第十七頁,共七十一頁,2022年,8月28日例1從19個桿塔上的普通盤形絕緣子測得該層電導率()的數據如下:
9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33
計算均值、方差、標準差、變異系數、偏度、峰度。
第十八頁,共七十一頁,2022年,8月28日通過計算,得=8.487,=3.046,=1.845,CV=21.745,=0.035,=-0.852
,的絕對值比較小,可以認為是來自正態總體的數據。
第十九頁,共七十一頁,2022年,8月28日中位數、分位數、三均值與極差
均值、方差、標準差等數字特征是總體相應特征值的一種矩估計,更適合于來自正態分布的數據的分析。若總體的分布未知,或者數據嚴重偏態,有若干異常值(極端值),上述分析數據的方法不甚合適,而應計算中位數、分位數、三均值、極差等數據數字特征,計算上述特征需要用到次序統計量。第二十頁,共七十一頁,2022年,8月28日次序統計量設是n個觀測值,可以理解為來自某些總體的樣本。將其按數值大小記為這就是次序統計量。最小統計量與最大統計量分別為:第二十一頁,共七十一頁,2022年,8月28日中位數與極差中位數的計算公式是中位數是描述數據中心位置的數字特征。大體上比中位數大或小的數據個數為整個數據個數的一半。第二十二頁,共七十一頁,2022年,8月28日中位數與極差
對于對稱分布的數據,均值與中位數較接近;對于偏態分布的數據,均值與中位數不同。中位數的另一個顯著特點是不受異常值(特大或特小)的影響,具有穩健性,因此它是數據分析中相當重要的統計量。
極差的計算公式是
它是描述數據分散性的數字特征。數據越分散,極差越大。第二十三頁,共七十一頁,2022年,8月28日例考慮下列樣本:
53113178
寫出次序計量,并求中位數、極差。
第二十四頁,共七十一頁,2022年,8月28日對和容量為的樣本它的分位數是其中[np]表示np的整數部分,當p=1時,M1=x(n)分位數
第二十五頁,共七十一頁,2022年,8月28日0.5分位數就是中位數M.在實際應用中,0.75分位數與0.25分位數比較重要,它們分別稱為上、下四分位數,并簡記為下列分位數也在實際應用中經常用到:,,,,,。第二十六頁,共七十一頁,2022年,8月28日例考慮下列樣本:
53113178計算上面數據的,,及,,,,,。第二十七頁,共七十一頁,2022年,8月28日以此類推,我們可以得到其他的結果:第二十八頁,共七十一頁,2022年,8月28日均值與中位數M皆是描述數據集中位置的數字特征。計算時,用了樣本的全部信息,而M僅用了數據分布中的部分信息。因此,在正常情況下,用比用M描述數據的集中位置為優。然而,當存在異常值時,缺乏穩健性,而M具有很強的穩健性。考慮到要充分利用樣本信息,又要具有較強的穩健性,可以用三均值作為數據集中位置的數字特征。
三均值的計算公式是:第二十九頁,共七十一頁,2022年,8月28日上、下四分位之差稱為四分位極差(或半級差)。有一種簡便判斷數據為異常值的方法,以為數據的上下截斷點。第三十頁,共七十一頁,2022年,8月28日例從19個桿塔上的普通盤形絕緣子測得該層電導率()的數據如下:
9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33
計算中位數、諸分位數、極差、四分位數、三均值,并分析是否有異常值。
第三十一頁,共七十一頁,2022年,8月28日上、下截斷點分別為1.29和15.05,故數據無異常值。第三十二頁,共七十一頁,2022年,8月28日內容分布均值、方差的數據特征數據的分布二元數據的數字特征及相關系數誤差壞值的剔除第三十三頁,共七十一頁,2022年,8月28日數據的分布數據的數字特征刻畫了數據的主要特征,而要對數據的總體情況作全面的描述,就要研究數據的分布。對數據分布的主要描述方法是直方圖與莖葉圖、數據的理論分布即總體分布。數據分析的一個重要問題是要研究數據是否來自正態總體,這是分布的正態性經驗的問題。第三十四頁,共七十一頁,2022年,8月28日直方圖、QQ圖對于數據分布,常用直方圖進行描述。將數據取值的范圍分成若干區間(一般是等間隔的),在等間隔區間的情況,每個區間的長度稱為組距。考察數據落入每一區間的頻數與頻率,在每個區間上畫一個矩形,它的寬度是組距,它的高度可以是頻數、頻率或頻率/組距,在高度是頻率/組距的情況,每一矩形的面積恰是數據落入區間的頻率,這種直方圖可以估計總體的概率密度。組距對直方圖的形態有很大的影響,組距太小,每組的頻數較少,由于隨機性的影響,鄰近區間上的頻數可能很大;組距太大,直方圖所反映概率密度的形態就不靈敏。第三十五頁,共七十一頁,2022年,8月28日第三十六頁,共七十一頁,2022年,8月28日QQ圖可以幫助界別樣本分布是否近似于某種類型的分布。第三十七頁,共七十一頁,2022年,8月28日第三十八頁,共七十一頁,2022年,8月28日莖葉圖、箱線圖與直方圖相比較,莖葉圖更能細致地看出數據分布的結構。例某班有31個學生,某門課程的考試成績如下:
254550545561646872757578798183848484858686868789898990919192100
做出其莖葉圖。第三十九頁,共七十一頁,2022年,8月28日第四十頁,共七十一頁,2022年,8月28日莖葉圖的特點莖葉圖與直方圖一樣,可以直觀地看出數據的分布狀況。從莖葉圖分析,可大致直觀地看出這批數據是否接近對稱,分散性如何,是否有異常值,數據中是否有間隙等等。利用莖葉圖,很自然地可以對所有數據排序。從莖葉圖可以看出由原始數據得到的次序統計量。對于排過序的一批數據,從小到大的每個數據的排序名次,稱為升秩;而從大到小的每個數據的排序名次,稱為降秩。每個數據的升秩與降秩的較小者,稱為該數據的深度,即
深度=min(升秩,降秩)第四十一頁,共七十一頁,2022年,8月28日例鉛壓鑄件硬度數據如下:
53.070.284.355.378.563.571.453.482.567.369.573.055.785.895.451.174.454.177.852.469.153.564.382.755.770.587.550.772.359.5
做出數據的莖葉圖。第四十二頁,共七十一頁,2022年,8月28日箱線圖莖葉圖是探索性數據分析所采用的重要方法。而箱線圖也能直觀簡潔地展現數據分布的主要特征。第四十三頁,共七十一頁,2022年,8月28日內容分布均值、方差的數據特征數據的分布二元數據的數字特征及相關系數誤差壞值的剔除第四十四頁,共七十一頁,2022年,8月28日多元數據的數字特征與相關分析以上我們分析的都是一元數據,但在實際中,人們更多的遇到的是多元數據對于多元數據,除分析各變量的取值特點外,更要分析各個變量之間的相關關系第四十五頁,共七十一頁,2022年,8月28日二元數據的數字特征及相關系數設是二元總體,從中取得觀測數據
引進數據觀測矩陣記第四十六頁,共七十一頁,2022年,8月28日二元數據的數字特征及相關系數
則,稱為二元觀測數據的均值向量。記第四十七頁,共七十一頁,2022年,8月28日二元數據的數字特征及相關系數協方差矩陣有由Schwarz不等式所以S總是非負定的,一般是正定的。設M是n階實系數對稱矩陣,如果對任何非零向量
X=(x1,...xn)都有XMX′>0,就稱M正定(PositiveDefinite)。第四十八頁,共七十一頁,2022年,8月28日二元數據的數字特征及相關系數觀測數據的相關系數(Pearson)計算公式是
由Schwarz不等式,有
即總有第四十九頁,共七十一頁,2022年,8月28日二元數據的數字特征及相關系數第五十頁,共七十一頁,2022年,8月28日Spearman相關系數秩設其次序統計量是若,則稱是在樣本中的秩,記作例:-0.8,-3.1,1.1,-5.2,4.2
次序統計量是-5.2,-3.1,-0.8,1.1,4.2
而秩統計量是3,2,4,1,5
當觀測數據中有兩個觀測值相等,則相應的秩統計量不能唯一確定,通常對相同的觀測值,其秩取為他們秩的平均值。第五十一頁,共七十一頁,2022年,8月28日Spearman相關系數第五十二頁,共七十一頁,2022年,8月28日Spearman相關系數第五十三頁,共七十一頁,2022年,8月28日內容分布均值、方差的數據特征數據的分布二元數據的數字特征及相關系數誤差壞值的剔除第五十四頁,共七十一頁,2022年,8月28日誤差的定義定義:Δx–
測量誤差x–
測量結果x0
–
真值測量結果與其真值的差異,真值:被測量的客觀真實值理論真值:理論上存在、計算推導出來如:三角形內角和180°約定真值:國際上公認的最高基準值如:基準米(氪-86的能級躍遷在真空中的輻射波長)相對真值:利用高一等級精度的儀器或裝置的測量結果作為近似真值1m=1650763.73λ標準儀器的測量標準差<1/3測量系統標準差→檢定定量表示誤差理論第五十五頁,共七十一頁,2022年,8月28日測量誤差的性質與分類(1)隨機誤差(randomerror)正態分布性質:原因:裝置誤差、環境誤差、使用誤差處理:統計分析、計算處理→減小對稱性有界性抵償性單峰性絕對值相等的正負誤差出現的次數相等絕對值小的誤差比絕對值大的誤差出現的次數多偶然誤差絕對值不會超過一定程度當測量次數足夠多時,偶然誤差算術平均值趨于0第五十六頁,共七十一頁,2022年,8月28日測量誤差的性質與分類(2)系統誤差(systemerror)
:性質:有規律,可再現,可以預測原因:原理誤差、方法誤差、環境誤差、使用誤差處理:理論分析、實驗驗證→修正(3)粗大誤差(abnormalerror)
:性質:偶然出現,誤差很大,異常數據,與有用數據混在一起原因:裝置誤差、使用誤差處理:判斷、剔除第五十七頁,共七十一頁,2022年,8月28日
測量精度精度:測量結果與真值吻合程度定性概念測量精度舉例不精密(隨機誤差大)準確(系統誤差小)精密(隨機誤差小)不準確(系統誤差大)不精密(隨機誤差大)不準確(系統誤差大)精密(隨機誤差小)準確(系統誤差小)第五十八頁,共七十一頁,2022年,8月28日精密度:(precision)表述:概念:重復測量時,測量結果的分散性準確度:表述:測量結果與真值的接近程度,系統誤差的影響程度隨機誤差的標準差(standarddeviation)性質:平均值與真值的偏差(deviation)第五十九頁,共七十一頁,2022年,8月28日算術平均值法表述:x1,x2,…xn---測量數據原理:多次重復測量時,取全部測量數據的算術平均值為測量結果剩余誤差偶然誤差性質:(1)剩余誤差的代數和等于零,即算術平均值法可以濾除或減小偶然誤差(2)剩余誤差的平方和為最小最小二乘法基礎第六十頁,共七十一頁,2022年,8月28日標準誤差用偶然誤差表示:用剩余誤差表示:Bessel公式第六十一頁,共七十一頁,2022年,8月28日內容分布均值、方差的數據特征數據的分布二元數據的數字特征及相關系數誤差壞值的剔除第六十二頁,共七十一頁,2022年,8月28日壞值的剔除基本思想:給定一定的顯著水平,并確定一個門限,凡是超過這個門限的誤差就認為他不屬于稅基誤差的范疇,予以剔除。方法:拉依達(Pauta)準則、格拉布斯(Grubbs)準則、狄克遜(Dixon)準則、肖維勒(Chauvenet)準則第六十三頁,共七十一頁,2022年,8月28日拉依達(Pauta)準則
如果可疑數據xp與試驗數據的算術平均值的偏差的絕對值Vi大于3倍(或2倍)的標準偏差,即:Vi>3s或2s則應將xp從該組試驗值中剔除,至于選擇3s還是2s與顯著性水平α有關。顯著性水平α表示的是檢驗出錯的幾率為α,或者是檢驗的可信度為1-α
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 腫瘤細胞培養過程
- 電工技術教學課件
- 森林應急面試題及答案
- 達能面試題及答案講解
- 小星星幼兒課件
- 各級護理技術職稱崗位職責
- 湖南省益陽市沅江市兩校聯考2025年中考考前第三次模擬演練三模道德與法治試卷(含答案)
- 制冷設備維修培訓
- 安全生產培訓工作
- 醫療器械注冊審批改革對2025年行業市場潛力挖掘的影響研究
- 水產品市場的營銷策略與市場推廣
- 超市經營方案
- 工程施工竣工報告
- PythonWeb開發技術與應用(Flask版)PPT完整全套教學課件
- 10kV~500kV輸變電及配電工程質量驗收與評定標準:01輸電線路工程
- 子宮內膜癌內分泌治療課件
- 稅務行政處罰文書(標準版)
- 第三章葡萄酒釀造2
- 每天100道語法填空題過高考英語高頻詞匯12
- 數字程控交換機系統技術規范書
- GB 1886.20-2016食品安全國家標準食品添加劑氫氧化鈉
評論
0/150
提交評論