




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
賈俊平2024/3/131.1統計及其應用領域1.2數據及其分類1.3統計中的基本概念
統計和數據1.1
統計及其應用領域各種定義統計學是收集、分析、表述和解釋數據的科學(不列顛百科全書)統計是一門收集、分析、解釋和提供數據的科學(韋伯斯特國際辭典第3版)統計指的是一組方法,用來設計實驗、獲得數據,然后在這些數據的基礎上組織、概括、演示、分析、解釋和得出結論(MarioF.Triola,《初級統計學》)什么統計學收集、處理、分析、解釋數據并從數據中得出結論的科學收集數據:取得數據處理數據:整理與圖表展示分析數據:利用統計方法分析數據數據解釋:結果的說明得到結論:從數據分析中得出客觀結論包括描述方法、推斷方法及其他方法1.1統計及其應用領域描述統計研究數據收集、處理、匯總、圖表描述、概括與分析等統計方法描述數據特征找出數據的基本規律內容包括:搜集數據、整理數據、展示數據、描述性分析描述統計與推斷統計推斷統計研究如何利用樣本數據來推斷總體特征的統計方法對總體特征作出推斷內容包括:參數估計、假設檢驗1.1統計及其應用領域【例1.1】用統計識別作者1787—1788年,亞歷山大·漢密爾頓(AlexanderHamilton)、約翰·杰伊(JohnJay)和詹姆士·麥迪遜(JamesMadison)為了說服紐約人認可憲法,匿名發表了85篇著名的論文。在這些論文中,大多數的作者已經得到了識別,但是其中的12篇論文的作者身份引起了爭議。有人通過對不同的單詞的頻數進行統計分析,得出了結論:詹姆士·麥迪遜最有可能是這12篇論文的作者。現在,對于這些存在爭議的論文,認為詹姆士·麥迪遜是作者的觀點占主導地位,而且幾乎可以肯定這種觀點是正確的統計的應用領域【例1.2】用簡單的描述統計量得到一個重要發現費舍(R.A.Fisher)在1952年的一篇文章中舉了一個例子,說明如何由基本的描述統計量的知識引出一個重要的發現。20世紀早期,哥本哈根卡爾堡實驗室的施密特(J.Schmidt)發現不同地區所捕獲的同種魚類的脊椎骨和鰓腺的數量有很大不同,甚至在同一海灣內不同地點所捕獲的同種魚類,也有這樣的傾向;然而,鰻魚的脊椎骨的數量卻變化不大。施密特從歐洲大陸各地、冰島、亞速爾群島以及尼羅河等幾乎分離的水域里所捕獲的鰻魚的樣本中,計算發現了幾乎一樣的均值和標準偏差值。由此,施密特推斷各個不同海域內的鰻魚都是在海洋中某公共場所繁殖的。后來名為“戴納(Dana)”的科學考察船在一次遠征中發現了這個場所1.1統計及其應用領域
統計的應用領域1.1統計及其應用領域統計的誤用與濫用統計濫用不好的樣本或過小的樣本誤導性圖表局部描述故意曲解統計應用上的兩個極端——不用或幾乎不用統計;簡單問題復雜化在統計應用中,這兩個極端都是不可取的簡單的方法不一定沒用,復雜的方法也不一定有用。正如有的學者所說的,最簡單的模型往往是最有用的統計應該恰當地應用到它能起作用的地方。不能把統計神秘化,更不能歪曲統計,把統計作為掩蓋實事的陷阱1.2數據及其分類按計量尺度分類別數據(categoricaldata)只能歸于某一類別的非數字型數據對事物進行分類的結果,數據表現為類別,用文字來表述分為無序類別數據和有序類別數據數值數據(metricdata)按數字尺度測量的觀察值結果表現為具體的數值,對事物的精確測度分為離散數據和連續數據數據——變量的觀測結果按收集方法分觀測的數據(observationaldata)通過調查或觀測而收集到的數據在沒有對事物人為控制的條件下而得到的有關社會經濟現象的統計數據幾乎都是觀測數據實驗的數據(experimentaldata)在實驗中控制實驗對象而收集到的數據比如,對一種新藥療效的實驗,對一種新的農作物品種的實驗等自然科學領域的數據大多數都為實驗數據按時間狀況分截面數據(cross-sectionaldata)在相同或近似相同的時間點上收集的數據描述現象在某一時刻的變化情況比如,2021年我國各地區的國內生產總值數據時間序列數據(timeseriesdata)在不同時間上收集到的數據描述現象隨時間變化的情況比如,2000年至2021年國內生產總值數據1.2數據及其分類數據——變量的觀測結果數據的分類按計量尺度類別數據無序類別數據有序類別數據數值數據離散數據連續數據按收集方法觀察數據實驗數據按時間狀況截面數據時間序列數據1.3統計中的基本概念總體(population)所研究的全部個體(數據)的集合,其中的每一個個體也稱為元素分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數目是有限的無限總體所包括的元素是無限的,不可數的樣本(sample)從總體中抽取的一部分元素的集合構成樣本的元素的數目稱為樣本容量或樣本量(samplesize)總體和樣本1.3統計中的基本概念參數和統計量參數(parameter)描述總體特征的概括性數字度量,是研究者想要了解的總體的某種特征值所關心的參數主要有總體均值()、標準差(
)、總體比例()等總體參數通常用希臘字母表示統計量(statistic)用來描述樣本特征的概括性數字度量,它是根據樣本數據計算出來的一些量,是樣本的函數所關心的樣本統計量有樣本均值(
x)、樣本標準差(s)、樣本比例(p)等樣本統計量通常用小寫英文字母來表示1.3統計中的基本概念說明現象某種特征的概念如商品銷售額、受教育程度、產品的質量等級等變量的具體表現稱為變量值,即數據變量可以分為類別變量(categoricalvariable):說明事物類別的名稱無序類別變量有序類別變量數值變量(metricvariable):說明事物數字特征的名稱離散變量:取有限個值連續變量:可以取無窮多個值變量(variable)思維導圖本書結構數據來源和處理第2章數據來源和處理描述方法圖形展示第3章數據的圖形展示概括性度量第4章數據的概括性度量推斷方法估計方法第5章抽樣與參數估計檢驗方法第6章假設檢驗其他方法關系分析第7章相關與回歸分析時間序列第8章時間序列分析和預測描述應用推斷本書結構賈俊平2024/3/132.1數據的來源2.2數據的預處理2.3生成頻數分布表
數據來源和處理內容提要本章主要介紹統計數據的來源及其基本的處理方法,以便為進一步的分析奠定基礎具體內容包括數據的來源,介紹數據的直接來源和間接來源,抽樣方法以及抽取數據樣本的Excel實現數據的預處理,介紹數據審核、數據排序和篩選方法及Excel實現生成頻數分布表。介紹類別數據和數值數據頻數分布表的生成方法及Excel實現本章內容提要2.1
數據的來源二手數據——別人調查或實驗的數據統計部門和政府部門公布的有關資料,如各類統計年鑒各類經濟信息中心、信息咨詢機構、專業調查機構等提供的數據各類專業期刊、報紙、書籍所提供的資料各種會議,如博覽會、展銷會、交易會及專業性、學術性研討會上交流的有關資料從互聯網或圖書館查閱到的相關資料間接來源二手數據的特點收集容易,采集成本低作用廣泛分析所要研究的問題提供研究問題的背景幫助研究者更好地定義問題檢驗和回答某些疑問和假設尋找研究問題的思路和途徑收集二手資料在研究中應優先考慮二手數據的評估數據是誰收集的?可信度評估為什么目的而收集的?數據是怎樣收集的?什么時候收集的?2.1
數據的來源直接來源調查數據通過調查方法獲得的數據通常是對社會現象而言通常取自有限總體實驗數據通過實驗方法得到的數據通常是對自然現象而言也被廣泛運用到社會科學中如心理學、教育學、社會學、經濟學、管理學等2.1
數據的來源數據抽樣——概率抽樣(probabilitysampling)簡單隨機抽樣(simplerandomsampling)從含有N個元素的總體中,抽取n個元素作為樣本,使得每一個容量為n的樣本都有相同的機會(概率)被抽中簡單隨機抽樣是其他抽樣方法的基礎有兩種抽取元素的方法:重復抽樣和不重復抽樣重復抽樣(samplingwithoutreplacement):從總體中抽取一個元素后,把這個元素放回到總體中再抽取第二個元素,直至抽取n個元素為止不重復抽樣(samplingwithreplacement:個元素被抽中后不再放回總體,然后再從所剩下的元素中抽取第二個元素,直到抽取n個元素為止分層抽樣(stratifiedsampling)在抽樣之前先將總體的元素劃分為若干層(類),然后從各個層中抽取一定數量的元素組成一個樣本,這樣的抽樣方式稱為分層抽樣,也稱分類抽樣(stratifiedsampling)在分層或分類時,應使層內各元素的差異盡可能小,而使層與層之間的差異盡可能大。各層的劃分可根據研究者的判斷或研究的需要進行。比如,研究的對象為人時,可按性別、年齡等分層;研究收入的差異時,可按城鄉分層,等等。分層抽樣是一種常用的抽樣方式。它具有以下優點:分層抽樣除了可以對總體進行估計外,還可以對各層的子總體進行估計分層抽樣按自然區域或行政區域進行分層,可以使抽樣的組織和實施都比較方便分層抽樣的樣本分布在各個層內,從而使樣本在總體中的分布比較均勻分層抽樣可以提高估計的精度2.1
數據的來源數據抽樣——概率抽樣(probabilitysampling)系統抽樣(systematicsampling)也稱等距抽樣或機械抽樣。先將總體各元素按某種順序排列,并按某種規則確定一個隨機起點,然后,每隔一定的間隔抽取一個元素,直至抽取n個元素形成一個樣本系統抽樣具有以下優點:簡便易行。當抽樣容量很大時,簡單隨機抽樣逐個使用隨機數字表抽選是相當麻煩的,而系統抽樣有了總體元素的排序,只要確定出抽樣的起點和間隔后,樣本元素也就隨之確定,而且可以利用現有的排列順序,如抽選學生時利用學校的花名冊,抽選居民時可利用居委會的戶口本等,方便操作。因此系統抽樣常用來代替簡單隨機抽樣。系統抽樣的樣本在總體中的分布一般也比較均勻,由此估計的誤差通常要小于簡單隨機抽樣。如果掌握了總體的有關信息,將總體各元素按有關標志排列,就可以提高估計的精度整群抽樣(clustersampling)先將總體劃分成若干群,然后以群作為抽樣單位從中抽取部分群,再對抽中的各個群中所包含的所有元素進行觀察整群抽樣時,對群的劃分可以按自然的或行政的區域進行,也可以人為地組成群。比如,在抽選地區時,可以將一個地區作為一群,在抽取居民戶時,可以將一個居民區作為一群整群抽樣的優點是群的名單比較容易得到調查比較方便,節約費用。當群內的各元素存在差異時,整群抽樣可以提供較好的結果,理想的情況是每一群都是整個總體的一個縮影。在這種情況下,抽取很少的群就可以提供有關總體特征的信息如果實際情況不是這樣,整群抽樣的誤差會很大,效果也就很差2.1
數據的來源數據抽樣——概率抽樣——例題分析【例2.1】表2-1是50學生的姓名、性別、專業和考試分數數據,隨機抽取10個學生組成的一個樣本學生編號姓名性別專業考試分數1張青松男會計學822王宇翔男金融學813田思雨女會計學754徐麗娜女管理學865張志杰男會計學77……………21劉曉軍男管理學9146孫夢婷女管理學8647唐國健男管理學7548尹嘉韓男會計學7049王雯迪女會計學7350王思思女會計學80第1步:在工作表中點擊【數據】
【數據分析】。第2步:在彈出的對話框中選擇【抽樣】。單擊【確定】。第3步:在出現的對話框【輸入區域】中輸入要抽取一般的數據區域(本例中為學生代碼所在的區域);在【抽樣方法】中單擊【隨機】;在【樣本數】中輸入需要抽樣的樣本量(本例為20);在【輸出區域】中選擇抽樣結果放置的區域。單擊【確定】學生編號姓名性別專業考試分數6趙穎穎女金融學9739劉文濤男管理學7341馬家強男金融學8212馬鳳良男金融學558宋麗媛女會計學9244邱怡爽女金融學8315孫學偉男會計學5130李愛華女會計學9812馬鳳良男金融學5539劉文濤男管理學732.2數據的預處理數據審核就是檢查數據中是否有錯誤對于通過調查取得的原始數據(rawdata),主要從完整性和準確性兩個方面去審核。完整性審核主要是檢查應調查個體是否有遺漏,所有的調查項目是否填寫齊全等。準確性審核主要是檢查數據是否有錯誤,是否存在異常值等對于通過其他渠道取得的二手數據,應著重審核數據的適用性和時效性應弄清楚數據的來源、數據的口徑以及有關的背景材料,以便確定這些數據是否符合自己分析研究的需要,不能盲目生搬硬套還要對數據的時效性進行審核,對于有些時效性較強的問題,如果所取得的數據過于滯后,可能失去了研究的意義數據審核與錄入——數據審核2.2數據的預處理數據錄入就是生成電子數據文件用Excel進行數據驗證第1步:用鼠標在工作表中選定錄入數據的單元格區域,如A1:B10單元格區域第2步:選擇【數據】→【數據驗證】第3步:在【驗證條件】的【允許】框內選擇要錄入的數據類型,比如,“整數”(默認為任何值)。在【介于】框內選擇驗證條件,或者在“最小值”和“最大值”框內輸入數據范圍。比如,在【最小值】框內輸入0,在【最大值】框內輸入100。出現的界面如下圖所示第4步:點擊【出錯警告】,在【式樣】下選擇“警告”,在【錯誤信息】下輸入警告信息,比如“NA”。然后點擊【確定】,即可完成設置完成上述設置后,在此區域內錄入不符合驗證條件的數據將會出現以下錯誤信息。比如,在A1單元格錄入1000,顯示的錯誤信息。選擇【是】,忽略此錯誤,選擇【否】則返回單元格,再重新錄入數據審核與錄入——數據錄入2.2數據的預處理
數據排序與篩選——數據排序2.2數據的預處理數據篩選(datafilter)是根據需要找出符合特定條件的某類數據用Excel進行數據篩選的過程篩選出考試分數大于等于90的學生第1步:將光標放在數據區域的任意單元格。然后點擊【數據】
【篩選】。這時繪在每個變量名中出現下拉箭頭第2步:點擊要篩選的變量的下拉箭頭即可對該變量進行篩選。比如,要篩選出考試分數大于等于90的學生,點擊考試分數變量的下拉箭頭第3步:點擊“大于或等于”,并在后面的框內輸入90。點擊【確定】篩選出會計學專業考試分數小于60男生——使用【高級篩選】命令第1步:在工作表的上方插入3個空行,將數據表的第一行(變量名)復制到第1個空行;在第2個空行的相應變量名下依次輸入篩選的條件第2步:選擇【數據】→【高級】。在列表區域輸入要篩選的數據區域;在條件區域輸入條件區域單擊【確定】數據排序與篩選——數據篩選2.3生成頻數分布表頻數(frequency)——落在某一特定類別(或組)中的數據個數頻數分布(frequencydistribution)——把各個類別及落在其中的相應頻數全部列出,并用表格形式表現出來由于類別數據本身就是用文字表達的類別,因此,只要先把所有的類別都列出來,然后計算出每一類別的頻數,即可生成一張頻數分布表頻數分布表中落在某一特定類別的數據個數就是頻數根據觀察變量的多少,可以生成簡單頻數表、二維列聯表和多維列聯表等類別數據的頻數分布表——簡單頻數表簡單的頻數表也稱為一維列聯表只涉及一個分類變量時,這個變量的各類別(取值)可以放在頻數分布表中“行”的位置,也可以放在“列”的位置,將該變量的各類別及其相應的頻數列出來2.3生成頻數分布表類別數據的頻數分布表——簡單頻數表——例題分析【例2.3】沿用例2.1。分別制作學生性別和專業的簡單頻數表用Excel生成頻數分布表的步驟第1步:選擇【插入】→【數據透視表】第2步:在【表/區域】框內選定數據區域(在操作前將光標放在任意數據單元格內,系統會自動選定數據區域)。選擇放置數據透視表的位置。系統默認是新工作表,如果要將透視表放在現有工作表中,選擇【現有工作表】,并在【位置】框內點擊工作表的任意單元格(不要覆蓋數據)。點擊【確定】第3步:用鼠標右鍵單擊數據透視表,選擇【數據透視表選項】,在彈出的對話框中點擊【顯示】,并選中【經典數據透視表布局】,然后【確定】第4步:將數據透視的一個字段拖至“行”位置,將“另一個字段”拖至“列”的位置(行列可以互換),再將要計數的變量拖至“值字段”位置,即可生成需要的頻數分布表2.3生成頻數分布表類別數據的頻數分布表——二維列聯表——例題分析二維列聯表(contingencytable)也稱為交叉表(crosstable)涉及兩個分類變量時,通常將一個變量的各類別放在“行”的位置,另一個變量的各類別放在“列”的位置(行和列可以互換)生成頻數分布表,這樣表格就是列聯表可以使用比例(proportion)、百分比(percentage)、比率(ratio)等統計量進行描述。如果是有序類別數據,還可以計算累積百分比(CumulativePercent)進行分析【例2.4】例如沿用例2.1。將性別放在行的位置、專專業放在列的位置,制作一個二維列聯表2.3生成頻數分布表數值數據的頻數分布表——例題分析生成數值數據的頻數分布表時,需要先將其類別化,即轉化為類別數據,然后再生成頻數分布表。類別化的方法是將原始數據分成不同的組別數據分組是將數值數據轉化成類別數據的方法之一,它是先將數據按照一定的間距劃分成若干個區間,然后再統計出每個區間的頻數,生成頻數分布表【例2.5】某電腦公司2021年前4個月的銷售額數據如表2-7所示。對數據額做適當分組,分析銷售額的分布特征2341591871551721831821771631581431981411671942251771891962031871602141681731781842091761881611521492111962341851891962061501611781681741531861901601712281622231701651791861751972081531632181801751441781911971921661961791712331791871731742101541642152331751882371941981681742261801721901721871892002111561651752102071812051952011722031651961721761821881952022132.3生成頻數分布表數值數據的頻數分布表——例題分析
2.3生成頻數分布表數值數據的頻數分布表——例題分析【例2.5】某電腦公司2021年前4個月的銷售額數據分組表
銷售額分組(萬元)天數(天)頻率(%)140-15043.3315--16097.50160-1701613.33170-1802722.50180-1902016.67190-2001714.17200-210108.33210=22086.67220-23043.33230-24054.17合計120100.00思維導圖本書結構數據來源和處理數據來源間接來源和間接來源數據抽樣簡單隨機抽樣分層抽樣系統抽樣整群抽樣數據預處理審核與錄入排序與篩選生成頻數表分類數據數值數據來源間接和直接處理審核與錄入生成表頻數表賈俊平2024/3/133.1類別數據可視化3.2數值數據可視化3.3合理使用圖表
數據可視化內容提要本章主要介紹數據可視化,也就是如何用圖形來展示數據。無論是做數據的描述、推斷還是其他分析,都離不開可視化問題。可視化是數據分析的基本技能,也是學習統計必須掌握的知識具體內容包括類別數據的可視化方法,主要介紹條形圖和餅圖的繪制方法數值數據的可視化方法,介紹反映數據分布特征的直方圖和箱形圖;反映數值變量之間關系的散點圖和氣泡圖;反映樣本相似性的雷達圖和輪廓圖;反映時間序列變化特征的折線圖和面積圖等使用圖表的注意事項,介紹圖表使用中應注意的一些問題本章內容提要3.1
類別數據可視化條形圖(barchart)用一定寬度的條形來表示各類別頻數的圖形,用于觀察不同類別頻數的多少或分布狀況繪制時,各類別可以放在橫軸,也可以放在縱軸,將各類別放在橫軸繪制的條形圖也稱為柱形圖(columnchart)只有一個分類變量時,可以繪制簡單條形圖和帕累托圖有兩個分類變量時,可以繪制簇狀條形圖或堆積條形圖條形圖簡單條形圖是根據一個分類變量繪制的,用于描述該變量的各類別的頻數分布狀況其中的各個類別可以放在橫軸,也可以放在縱軸帕累托圖(paretoplot)以意大利經濟學家V.Pareto的名字而命名的,它是按各類別的頻數多少降序排列后繪制的條形圖。帕累托圖可以看做是簡單條形圖的一個變種簇狀條形圖或堆積條形圖可以將兩個變量的條形圖以簇狀或堆積的方式繪制3.1
類別數據可視化【例3.1】為研究不同地區的消費者對網上購物的滿意度,隨機抽取東部、中部和西部的2000個消費者進行調查,得到的結果如表3-1所示。繪制條形圖,分析各類別的人數分布狀況條形圖——簡單條形圖——例題分析東部中部西部總計非常滿意104140132376比較滿意156108120384一般148148160456不滿意156108140404非常不滿意156116108380總計72062066020003.1
類別數據可視化【例3.1】為研究不同地區的消費者對網上購物的滿意度,隨機抽取東部、中部和西部的2000個消費者進行調查,得到的結果如表3-1所示。繪制條形圖,分析各類別的人數分布狀況條形圖——帕累托圖——例題分析東部中部西部總計非常滿意104140132376比較滿意156108120384一般148148160456不滿意156108140404非常不滿意156116108380總計72062066020003.1
類別數據可視化【例3.1】——繪制簇狀條形圖和堆積條形圖條形圖——簇狀條形圖和堆積條形圖——例題分析3.1
類別數據可視化【例3.1】——繪制百分比堆積條形圖條形圖——簇狀條形圖和堆積條形圖——例題分析3.1
類別數據可視化餅圖(piechart)是用圓形及圓內扇形的角度來表示一個樣本(或總體)中各類別的頻數占總頻數比例大小的圖形對于研究結構性問題十分有用餅圖和環形圖——餅圖——例題分析3.1
類別數據可視化環形圖(doughnutchart)環形圖與餅圖類似,但又有區別。環形圖中間有一個“空洞”,每個樣本用一個環來表示,樣本中每一類別的頻數構成用環中的一段表示。因此,環形圖可顯示多個樣本各類別頻數占其相應總頻數的比例,從而有利于構成的比較研究繪制環形圖時,先向圓心方向畫一條垂線(圓的半徑),然后順時針方向依次畫出各類別所占的百分比。其中樣本的順序依次從內環到外環餅圖和環形圖——環形圖——例題分析3.2
數值數據可視化直方圖(histogram)用于展示數值數據分布的一種常用圖形它是用矩形的寬度和高度來表示頻數分布通過直方圖可以觀察數據分布的大體形狀,如分布是否對稱直方圖和箱形圖——直方圖不同直方圖所對應的分布形狀3.2
數值數據可視化【例3.2】表3-2是2020年1月—6月北京市的PM2.5數據。繪制直方圖分析PM2.5的分布特征直方圖和箱形圖——直方圖——例題分析日期1月2月3月4月5月6月135921910819251312516552335018141459424431011233485612638304812…………………271582854196628171651059375529708645615928304668905315314464112020年1—6月北京市PM2.5的直方圖3.2
數值數據可視化直方圖和箱形圖——直方圖——例題分析2020年1—6月北京市PM2.5的直方圖(組距=15)2020年1—6月北京市PM2.5的直方圖(組距為15,下溢箱為10,溢出箱為180)3.2
數值數據可視化
直方圖和箱形圖——箱形圖3.2
數值數據可視化箱形圖的一般形式直方圖和箱形圖——箱形圖3.2
數值數據可視化不同分布形狀對應的箱形圖直方圖和箱形圖——箱形圖3.2
數值數據可視化【例3.3】沿用例3.2。繪制箱形圖,分析各月份PM2.5分布的特征用Excel繪制箱形圖時,先將光標放在任意數據單元格,然后點擊【插入】
【插入統計圖表】,選擇【箱形圖】,即可繪制出箱形圖。根據需要再對圖形做必要的修改,比如,選擇不同的箱形圖式樣、更改坐標軸刻度、添加坐標軸標題、添加箱形圖的數值標簽等直方圖和箱形圖——箱形圖——例題分析3.2
數值數據可視化
散點圖和氣泡圖——散點圖——例題分析【例3.4】我國2019年31個地區的地區生產總值、房地產開發投資和社會消費品零售總額數據。繪散點圖并觀察它們之間的關系地區地區生產總值房地產開發投資社會消費品零售總額北京市35371.33838.415063.7天津市14104.32727.84218.2河北省35104.54347.112985.5山西省17026.71656.57030.5內蒙古自治區17212.51042.05051.1…………陜西省25793.23903.710213.0甘肅省8718.31257.93700.3青海省2966.0406.3948.5寧夏回族自治區3748.5403.11399.4新疆維吾爾自治區13597.11074.03617.03.2
數值數據可視化散點圖和氣泡圖——散點圖——例題分析【例3.4】我國2019年31個地區的地區生產總值、房地產開發投資和社會消費品零售總額數據。繪散點圖并觀察它們之間的關系3.2
數值數據可視化氣泡圖(bubblechart)可以看作是散點圖的一個變種在氣泡圖中,第3個變量數值的大小用圓的大小表示散點圖和氣泡圖——氣泡圖——例題分析【例3.4】地區生產總值、房地產開發投資、社會消費品零售總額3個變量繪制的氣泡圖3.2
數值數據可視化氣泡圖(bubblechart)可以看作是散點圖的一個變種在氣泡圖中,第3個變量數值的大小用圓的大小表示散點圖和氣泡圖——氣泡圖——例題分析【例3.4】地區生產總值、房地產開發投資、社會消費品零售總額3個變量繪制的氣泡圖3.2
數值數據可視化雷達圖和輪廓圖——雷達圖——例題分析雷達圖(radarchart)從一個點出發,用每一條射線代表一個變量,多個變量的數據點連接成線,即圍成一個區域,多個樣本圍成多個區域,就是雷達圖利用它也可以研究多個樣本之間的相似程度【例3.5】表3-4是2018年北京、天津、上海和重慶的人均消費支出數據,繪制雷達圖,比較不同地區的家庭消費支出的特點和相似性地區食品煙酒衣著居住生活用品及服務交通通信教育文化娛樂醫療保健其他用品及服務北京8064.92175.514110.32371.94767.43999.43274.51078.6天津8647.51990.06406.31818.44280.93186.62676.9896.3上海10728.22036.814208.52095.54881.25049.43070.21281.5重慶6220.81454.53498.81338.92545.02087.81660.0442.83.2
數值數據可視化雷達圖和輪廓圖——雷達圖——例題分析【例3.5】——雷達圖3.2
數值數據可視化雷達圖和輪廓圖——輪廓圖——例題分析輪廓圖(outlinechart)也稱為平行坐標圖或多線圖它是用x軸表示各樣本,y軸表示每個樣本的多個變量的取值,將同一樣本的不同變量取值用折線連接,即為輪廓圖利用它也可以研究多個樣本之間的相似程度【例3.5】表3-4是2018年北京、天津、上海和重慶的人均消費支出數據,繪制輪廓圖,比較不同地區的家庭消費支出的特點和相似性3.2
數值數據可視化折線圖和面積圖——折線圖——例題分析
【例3.1】例3.1中1月份和2月份的數據的PM2.5的折線圖3.2
數值數據可視化折線圖和面積圖——折線圖——例題分析
【例3.1】例3.1中1月份和2月份的數據的PM2.5的面積圖3.3
合理使用圖表使用圖表的注意事項精心設計的圖表可以準確表達數據所要傳遞的信息設計圖表時,應盡可能簡潔,以能夠清晰地顯示數據、合理地表達統計目的為依據在繪制圖形時,應避免一切不必要的修飾。過于花哨的修飾往往會使人注重圖形本身,而掩蓋了圖形所要表達的信息。圖形大體上為4:3的一個矩形,過長或過高的圖形都有可能歪曲數據,給人留下錯誤的印象圖表應有編號和標題。編號一般使用阿拉伯數字,如表1、表2等等。圖表的標題應明示出表中數據所屬的時間(when)、地點(where)和內容(what),即通常所說的3W準則。表的標題通常放在表的上方;圖的標題可放在圖的上方,也可放在圖的下方思維導圖本書結構數據可視化類別數據觀察頻數簡單條形圖帕累托圖簇狀條形圖堆積條形圖觀察頻數構成餅圖環形圖數值數據看分布直方圖箱形圖看關系散點圖氣泡圖看相似雷達圖輪廓圖時間序列折線圖面積圖數值數據其他數據類別數據賈俊平2024/3/134.1集中趨勢的度量4.2離散程度的度量4.3分布形狀的度量
數據分布特征的測度內容提要數據分布的特征主要從三個方面進行測度和描述:一是分布的集中趨勢,反映各數據向其中心值靠攏或聚集的程度;二是分布的離散程度,反映各數據遠離其中心值的趨勢;三是分布的形狀,反映數據分布偏斜程度和峰度。這三個方面分別反映了數據分布特征的不同側面。本章將重點討論數據分布特征各測度值的計算方法、特點及應用場合具體內容包括集中趨勢的度量。介紹數據分布集中趨勢的各統計量,包括平均數、中位數、四分位數和眾數的計算方法、特點和應用場合離散程度的度量,介紹測度數據離散程度的常用統計量,包括極差、四分位差、方差、標準差以及離散系數等偏度和峰度的度量,介紹偏度系數和峰度系數計算方法類別數據的可視化方法,主要介紹條形圖和餅圖的繪制方法本章內容提要4.1
集中趨勢的度量
平均數簡單平均數加權平均數
4.1
集中趨勢的度量【例4.1】隨機抽取30個大學生,得到他們在“雙十一”期間的網購金額數據,如表所示。計算30個人的平均網購金額平均數——簡單平均數——例題分析479.0721.2672.4728.7443.2381.3527.0500.0586.0500.0528.2633.8705.9423.5590.1353.6447.4565.3557.1481.3561.1620.1477.1436.2562.9505.1515.4502.7487.5675.4
4.1
集中趨勢的度量【例4.2】假定將表4-1的數據分成組距為50的組,分組結果如表4-2所示,計算網購金額的平均數平均數——加權平均數——例題分析
分組人數350~4002400~4504450~5004500~5507550~6006600~6502650~7002700~7503合計30分組350~4003752750400~45042541700450~50047541900500~55052573675550~60057563450600~65062521250650~70067521350700~75072532175合計
30162504.1
集中趨勢的度量中位數和四分位數——中位數——例題分析分位數——一組數據按從小到大排序后,可以找出排在某個位置上的數值,該數值可以代表數據水平的高低。這些位置上的數值就是相應的分位數(quantile)。常用的分位數有中位數、四分位數、百分位數等中位數——排序后處于中間位置上的值。不受極端值影響位置確定數值計算
4.1
集中趨勢的度量中位數和四分位數——四分位數——例題分析四分位數——一組數據排序后處在25%和75%位置上的數值它是用3個點將全部數據等分為4部分,其中每部分包含25%的數據。中間的四分位數就是中位數,通常所說的四分位數是指處在25%位置上和75%位置上的兩個數值位置確定
4.1
集中趨勢的度量眾數——各度量值的比較眾數——一組數據中出現次數最多的變量值一組數據可能沒有眾數或有幾個眾數適合于數據量較多時使用實際中很少使用平均數易受極端值影響數學性質優良,實際中最常用數據對稱分布或接近對稱分布時代表性較好中位數不受極端值影響數據分布偏斜程度較大時代表性接好眾數不受極端值影響具有不惟一性數據分布偏斜程度較大且有明顯峰值時代表性較好4.2
離散程度的度量極差和四分位差——極差
4.2
離散程度的度量極差和四分位差——四分位差
4.2
離散程度的度量方差和標準差方差——各變量值與均值的平均差異標準差——上四分位數與下四分位數之差
樣本標準差s
樣本標準差s
原始數據分組數據4.2
離散程度的度量方差和標準差——例題分析
【例4.6】沿用例4.2。根據表4-2的分組數據,計算網購金額的標準差分組350~400375226879.6053759.21400~450425412984.6051938.41450~50047544089.6016358.41500~5505257194.601362.22550~60057561299.607797.61600~65062527404.6014809.21650~700675218509.6037019.21700~750725334614.60103843.81合計—30105976.82286888.08
4.2
離散程度的度量離散系數——例題分析離散系數——標準差與其相應的均值之比對數據相對離散程度的測度消除了數據水平高低和計量單位的影響用于對不同組別數據離散程度的比較計算公式為【例4.7】評價哪名運動員的發揮更穩定
姓名國家預賽成績決賽10槍成績(環)納塔利婭·帕杰林娜俄羅斯39110.08.510.010.210.610.59.89.79.59.3郭文珺中國39010.010.510.410.410.110.39.410.710.89.7卓格巴德拉赫·蒙赫珠勒蒙古3879.310.08.78.39.29.58.510.79.29.2妮諾·薩盧克瓦澤格魯吉亞3869.810.310.09.510.210.710.410.69.110.8維多利亞·柴卡白俄羅斯3849.39.410.410.110.210.59.210.59.88.6萊萬多夫斯卡·薩貢波蘭3848.110.39.29.99.810.49.99.410.79.8亞斯娜·舍卡里奇塞爾維亞38410.29.69.99.99.39.19.710.09.39.9米拉·內萬蘇芬蘭3848.79.39.210.39.810.09.79.99.99.74.2
離散程度的度量離散系數——例題分析【例4.7】評價哪名運動員的發揮更穩定運動員國家平均環數標準差離散系數納塔利婭·帕杰林娜俄羅斯9.810.61540.0627郭文珺中國10.230.43730.0427卓格巴德拉赫·蒙赫珠勒蒙古國9.260.70740.0764妮諾·薩盧克瓦澤格魯吉亞10.140.54610.0539維多利亞·柴卡白俄羅斯9.800.64980.0663萊萬多夫斯卡·薩貢波蘭9.730.73340.0754亞斯娜·舍卡里奇塞爾維亞9.690.35730.0369米拉·內萬蘇芬蘭9.650.46250.0479結論:從離散系數可以看出,在最后10槍的決賽中,發揮比較穩定的運動員是塞爾維亞的亞斯娜·舍卡里奇和中國的郭文珺,發揮不穩定的運動員是蒙古國的卓格巴德拉赫·蒙赫珠勒和波蘭的萊萬多夫斯卡·薩貢4.2
離散程度的度量標準分數——例題分析標準分數——也稱標準化值對某一個值在一組數據中相對位置的度量可用于判斷一組數據是否有離群點(outlier)用于對變量的標準化處理計算公式為
4.2
離散程度的度量標準分數——例題分析【例4.8】沿用例4.1。計算30個人網購金額的標準分數網購金額標準分數網購金額標準分數網購金額標準分數479.0-0.6141672.41.3670443.2-0.9808527.0-0.1224586.00.4820528.2-0.1101705.91.7102590.10.5240447.4-0.9378557.10.1859561.10.2269477.1-0.6336562.90.2453515.4-0.2412487.5-0.5270721.21.8669728.71.9438381.3-1.6149500.0-0.3990500.0-0.3990633.80.9716423.5-1.1826353.6-1.8987565.30.2699481.3-0.5906620.10.8313436.2-1.0526505.1-0.3468502.7-0.3713675.41.39784.2
離散程度的度量標準分數——經驗法則與切比雪夫不等式經驗法則根據標準分數,可以判斷一組數據中是否存在離群點(outlier)經驗表明:當一組數據對稱分布時,約有68.26%的數據在平均數加減1個標準差的范圍之內;約有95.44%的數據在平均數加減2個標準差的范圍之內;約有99%的數據在平均數加減3個標準差的范圍之內一組數據中低于或高于平均數3倍標準差之外的數值是很少的,也就是說,在平均數加減3個標準差的范圍內幾乎包含了全部數據,而在3個標準差之外的數據在統計上也稱為離群點4.2
離散程度的度量標準分數——經驗法則與切比雪夫不等式切比雪夫不等式(Chebyshev’sinequality)經驗法則適合對稱分布的數據。如果一組數據不是對稱分布,經驗法則就不再適用,這時可使用切比雪夫不等式它對任何分布形態的數據都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”,對于任意分布形態的數據,根據切比雪夫不等式:至少有(1-1/k2)的數據落在±k個標準差之內。其中k是大于1的任意值,但不一定是整數。對于k=2,3,4,該不等式的含義是:至少有75%的數據在平均數±2個標準差的范圍之內。至少有89%的數據在平均數±3個標準差的范圍之內。至少有94%的數據在平均數±4個標準差的范圍之內。4.3
分布形狀的度量偏度系數和峰度系數
峰度(kurtosis)——指數據分布峰值的高低由統計學家K.Pearson于1905年首次提出峰度系數—測度一組數據分布峰值高低的統計量是(coefficientofkurtosis),記作K計算公式
4.3
分布形狀的度量偏度系數和峰度系數——例題分析
4.3
分布形狀的度量偏度系數和峰度系數——例題分析【例4.9】沿用例4.1。計算30個人網購金額的偏度系數和峰度系數Excel實現第1步:將光標放在任意空白單元格。然后點擊【數據】
【數據分析】。在分析工具中選擇【描述統計】。單擊【確定】。第2步:在【輸入區域】輸入原始數據所在的區域;在【輸出選項】中選擇結果的輸出位置;選擇【匯總統計】(其他選項可根據需要選擇)。單擊【確定】即可得到結果統計量名稱計算結果平均538.95標準誤差17.82291中位數521.2眾數500標準差97.62009方差9529.681峰度-0.40747偏度0.340565區域375.1最小值353.6最大值728.7求和16168.5觀測數304.3
分布形狀的度量偏度系數——例題分析Excel中的描述函數函數名語法功能AVEDEVAVEDEV(number1,number2,...)計算平均差AVERAGEAVERAGE(number1,number2,...)計算平均數GEOMEANGEOMEAN(number1,number2,...)計算幾何平均數HARMEANHARMEAN(number1,number2,...)計算簡單調和平均數KURTKURT(number1,number2,...)計算峰態系數MODEMODE(number1,number2,...)計算眾數MEDIANMEDIAN(number1,number2,...)計算中位數QUARTILEQUARTILE(array,quart)計算四分位數SKEWSKEW(number1,number2,...)計算偏態系數STDEVSTDEV(number1,number2,...)計算樣本標準差STDEVPSTDEVP(number1,number2,...)計算總體標準差TRIMMEANTRIMMEAN(array,percent)計算切尾均值思維導圖本書結構分布特征的測度集中趨勢平均數中位數四分位數眾數離散程度極差和四分位差方差和標準差離散系數標準分數分布形狀偏度系數峰度系數數值特征水平差異形狀賈俊平2024/3/135.1統計量的抽樣分布5.2參數估計的基本原理5.3總體均值的區間估計5.4總體比的區間估計5.5樣本量的確定
參數估計內容提要參數估計是推斷統計的重要內容之一。它是在抽樣及抽樣分布的基礎上,根據樣本統計量來推斷所關心的總體參數。本章首先介紹抽樣分布的有關知識,然后上介紹參數估計的基本方法,最后介紹參數估計中樣本量的確定問題具體內容包括抽樣分布。主要解釋樣本均值和一般比例的抽樣分布,為理解參數估計奠定基礎參數估計的基本原理。介紹點估計和區間估計的基本思想和原理總體均值的區間估計。介紹一個總體均值的區間估計方法,包括正態總體方差已知和非正態總體大樣本條件下總體均值的區間估計,以及正態總體方差未知及小樣本條件下總體均值的區間估計體比例的估計。主要介紹大樣本情形下總體比例的區間估計樣本量的確定。分別介紹估計總體均值時和估計總體比例時樣本量的確定方法本章內容提要5.1
統計量的抽樣分布
什么是抽樣分布5.1
統計量的抽樣分布
樣本均值的分布5.1
統計量的抽樣分布
樣本均值的分布——例題分析樣本樣本中的元素11,11.021,21.531,32.041,42.552,11.562,22.072,32.582,43.093,12.0103,22.5113,33.0123,43.5134,12.5144,23.0154,33.5164,44.01.011.522.032.543.033.524.015.1
統計量的抽樣分布
樣本均值的分布——例題分析5.1
統計量的抽樣分布抽樣均值的分布與總體分布及樣本量的關系樣本均值的分布——與總體分布及樣本量的關系5.1
統計量的抽樣分布
樣本均值的分布——中心極限定理5.1
統計量的抽樣分布從0~100均勻分布的總體和指數分布的總體中分別抽取樣本量為2、10和30的各5000個樣本,樣本均值的分布如圖所示圖中的U表示均勻分布,E表示指數分布樣本均值的分布——中心極限定理的模擬5.1
統計量的抽樣分布
樣本均值的分布——分布的參數特征5.1
統計量的抽樣分布
樣本比例的分布——比例5.1
統計量的抽樣分布
樣本比例的分布5.1
統計量的抽樣分布
統計量的標準誤5.1
統計量的抽樣分布估計的標準誤當總體標準差
未知時,可用樣本標準差s代替計算,這時計算的標準誤也稱為估計標準誤(standarderrorofestimation)由于實際應用中,總體
通常是未知時,所計算的標準誤實際上都是估計標準誤,因此估計標準誤就簡稱為標準誤(統計軟件中得到的都是估計標準誤)統計量的標準誤5.2
參數估計的基本原理
估計量與估計值5.2
參數估計的基本原理
點估計與區間估計5.2
參數估計的基本原理點估計與區間估計區間估計——在點估計的基礎上,給出總體參數估計的一個估計區間根據樣本統計量所構造的總體參數的估計區間,稱為置信區間(confidenceinterval,CI),其中區間的最小值稱為置信下限,最大值稱為置信上限。該區間由樣本統計量加減估計誤差而得到區間估計的圖示5.2
參數估計的基本原理點估計與區間估計——置信水平
置信水平90%0.100.051.64595%0.050.0251.9699%0.010.0052.585.2
參數估計的基本原理點估計與區間估計——置信區間的理解
5.2
參數估計的基本原理點估計與區間估計——置信區間的理解
5.3
總體均值的區間估計
正態總體方差已知,或非正態總體大樣本
5.3
總體均值的區間估計
正態總體方差已知,或非正態總體大樣本——例題分析【例5.2】一家食品生產企業以生產袋裝食品為主,每天的產量大約為8000袋左右。按規定每袋的重量應為100克。為對產量質量進行監測,企業質檢部門經常要進行抽檢,以分析每袋重量是否符合要求。現從某天生產的一批食品中隨機抽取了25袋,測得每袋重量如表5-4所示
112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.35.3
總體均值的區間估計
正態總體方差已知,或非正態總體大樣本——例題分析
5.3
總體均值的區間估計
正態總體方差已知,或非正態總體大樣本——例題分析【例5.3】一家保險公司收集到由36位投保個人組成的隨機樣本,得到每位投保人的年齡(單位:周歲)數據如表5-5
2335392736443642464331334253455447243428393644403949383448503439454845325.3
總體均值的區間估計
正態總體方差未知,小樣本
5.3
總體均值的區間估計
正態總體方差未知,小樣本——例題分析【例5.4】已知某種燈泡的壽命服從正態分布,現從一批燈泡中隨機抽取16只,測得其使用壽命(單位:小時)如表5-6所示
15101450148014601520148014901460148015101530147015001520151014705.3
總體均值的區間估計
正態總體方差未知,小樣本——例題分析
5.4
總體比例間估計總體比例的區間估計——大樣本
5.4
總體比例間估計總體比例的區間估計——大樣本【例5.5】某城市交通管理部門想要估計贊成機動車限行的人數比例,隨機抽取了100個機動車主,其中65人表示贊成。試以95%的置信水平估計該城市贊成機動車限行的人數比例的置信區間
5.4
總體均值和比例間估計總體均值和比例的區間估計——小結參數點估計量標準誤差假定條件p5.5
樣本量的確定估計總體均值時樣本量的確定
5.5
樣本量的確定估計總體均值時樣本量的確定
5.5
樣本量的確定估計總體比例時樣本量的確定
5.5
樣本量的確定估計總體比例時樣本量的確定——例題分析
5.5
樣本量的確定估計總體均值時樣本量的確定
思維導圖本書結構參數估計統計推斷的理論基礎抽樣分布樣本均值的部分樣本比例的分布統計量的標準誤總體均值的區間估計正態總體方差已知或非正態總體大樣本正態分布正態總體、方差未知小樣本t分布總體比例的區間估計大樣本正態分布樣本量的確定估計總體均值時的樣本量估計總體比例時的樣本量參數統計量誤差賈俊平2024/3/136.1假設檢驗的基本原理6.2總體均值的檢驗6.3總體比例的檢驗
假設檢驗內容提要
本章內容提要6.1
假設檢驗的基本原理假設的陳述——假設與假設檢驗假設—在參數檢驗中,是對總體參數的具體數值所作的陳述就一個總體而言,總體參數包括總體均值、比例、方差等分析之前必需陳述假設檢驗—先對總體的參數(或分布形式)提出某種假設,然后利用樣本信息判斷假設是否成立的統計方法有參數檢驗和非參數檢驗邏輯上運用反證法,統計上依據小概率原理小概率是在一次試驗中,一個幾乎不可能發生的事件發生的概率在一次試驗中小概率事件一旦發生,我們就有理由拒絕原假設6.1
假設檢驗的基本原理如何提出假設——原假設與備擇假設
6.1
假設檢驗的基本原理如何提出假設——例題分析【例6.1】一種零件的生產標準是直徑應為10cm,為對生產過程進行控制,質量監測人員定期對一臺加工機床檢查,確定這臺機床生產的零件是否符合標準要求。如果零件的平均直徑大于或小于10cm,則表明生產過程不正常,必須進行調整。試陳述用來檢驗生產過程是否正常的原假設和備擇假設
6.1
假設檢驗的基本原理如何提出假設——例題分析【例6.2】某品牌洗滌劑在它的產品說明書中聲稱:平均凈含【例6.2】某品牌洗滌劑在它的產品說明書中聲稱:平均凈含量不少于500g。從消費者的利益出發,有關研究人員要通過抽檢其中的一批產品來驗證該產品制造商的說明是否屬實。試陳述用于檢驗的原假設與備擇假設
6.1
假設檢驗的基本原理如何提出假設——例題分析【例6.3】一家研究機構估計,某城市中家庭擁有汽車的比例超過30%。為驗證這一估計是否正確,該研究機構隨機抽取了一個樣本進行檢驗。試陳述用于檢驗的原假設與備擇假設
6.1
假設檢驗的基本原理如何提出假設——問題總結原假設和備擇假設是一個完備事件組,而且相互對立。這意味著,在一項假設檢驗中,原假設和備擇假設必有一個成立,而且只有一個成立在建立假設時,通常是先確定備擇假設,然后再確定原假設。這樣做的原因是備擇假設是我們所關心的,是想予以支持或證實的,因而比較清楚,容易確定。由于原假設和備擇假設是對立的,只要確定了備擇假設,原假設就很容易確定出來在假設檢驗中,等號“=”總是放在原假設上在面對某一實際問題時,由于不同的研究者有不同的研究目的,即使對同一問題也可能提出截然相反的原假設和備擇假設通常情形下,由于檢驗的目的不同,原假設可以根據3種情形來確定:①如果檢驗的目的是確定參數是否已經發生變化,這時,原假設的值可以根據過去的經驗、對過程的了解情形來確定。②如果檢驗的目的是證明某種理論或模型是否正確,原假設的值可以通過有關這個過程的一些理論或模型來確定。③如果檢驗的目的是檢驗是否符合某種特定標準,原假設的值可以根據事先設計的標準或合同的要求來確定假設檢驗的目的主要是收集證據拒絕原假設。原假設最初被假設是成立的,之后就是要根據樣本數據,確定是否有足夠的不符合原假設的證據以拒絕原假設6.1
假設檢驗的基本原理假設的形式——雙側檢驗與單側檢驗雙側檢驗—備擇假設沒有特定的方向性,并含有符號“
”的假設檢驗,稱為雙側檢驗或雙尾檢驗(two-tailedtest)單側檢驗—備擇假設具有特定的方向性,并含有符號“>”或“<”的假設檢驗,稱為單側檢驗或單尾檢驗(one-tailedtest)備擇假設的方向為“<”,稱為左側檢驗
備擇假設的方向為“>”,稱為右側檢驗假設雙側檢驗單側檢驗左側檢驗右側檢驗原假設備擇假設6.1
假設檢驗的基本原理兩類錯誤與顯著性水平
6.1
假設檢驗的基本原理兩類錯誤與顯著性水平——決策及其后果決策結果實際情形正確決策正確決策6.1
假設檢驗的基本原理檢驗統計量與拒絕域
6.1
假設檢驗的基本原理檢驗統計量與拒絕域拒絕域拒絕域臨界值臨界值0
/2
/2非拒絕域
非拒絕域
拒絕域臨界值0
拒絕域臨界值0
雙側檢驗左側檢驗右側檢驗雙側檢驗:│統計量│>臨界值,拒絕原假設左側檢驗:統計量的值<-臨界值,拒絕原假設右側檢驗:統計量的值>臨界值,拒絕原假設6.1
假設檢驗的基本原理用P值決策
6.1
假設檢驗的基本原理用P值決策雙側檢驗左側檢驗右側檢驗2P臨界值臨界值0
/2
/2計算出的統計量值計算出的統計量值P值臨界值0
計算出的統計量值P值臨界值0
計算出的統計量值
6.1
假設檢驗的基本原理用P值決策
6.1
假設檢驗的基本原理用P值決策與統計量決策的差異
統計量1統計量2拒絕H0的P1拒絕H0的
0拒絕H0的P2P6.1
假設檢驗的基本原理結果的表述
6.1
假設檢驗的基本原理小結——假設檢驗的步驟
6.2
總體均值的檢驗大樣本的檢驗方法
總體方差已知總體方差未知6.2
總體均值的檢驗大樣本的檢驗方法——例題分析
拒絕H0拒絕H0-1.961.9600.0250.025Z=1.016.2
總體均值的檢驗大樣本的檢驗方法——公式列表
雙側檢驗左側檢驗右側檢驗假設形式檢驗統計量P值決策準則6.2
總體均值的檢驗小樣本的檢驗方法
總體方差已知總體方差未知
雙側檢驗左側檢驗右側檢驗假設形式檢驗統計量P值決策準則6.2
總體均值的檢驗大樣本的檢驗方法——例題分析【例6.7】一種汽車配件的平均長度要求為12cm,高于或低于該標準均被認為是不合格的。汽車生產企業在購進配件時,通常是經過招標,然后對中標的配件提供商提供的樣品進行檢驗,以決定是否采購。現對一個配件提供商提供的10個樣本進行了檢驗,結果如下。假定該供貨商生產的配件長度服從正態分布,在0.05的顯著性水平下,檢驗該供貨商提供的配件是否符合要求12.210.812.011.811.912.411.312.212.012.36.2
總體均值的檢驗大樣本的檢驗方法——例題分析
拒絕域
22已知拒絕域t=-2.262t=2.26200.0250.025-0.70536.2
總體均值的檢驗一個總體均值檢驗的流程6.3
總體比例的檢驗大樣本的檢驗方法假定條件總體服從二項分布可用正態分布來近似(大樣本)檢驗的z統計量
雙側檢驗左側檢驗右側檢驗假設形式檢驗統計量P值決策準則6.3
總體比例的檢驗大樣本的檢驗方法——例題分析
6.3
總體比例的檢驗大樣本的檢驗方法——例題分析檢驗統計量的觀察值z=-2.475拒絕H0拒絕H0-1.961.9600.0250.025拒絕H0拒絕H0-2.582.5800.0050.005檢驗統計量的觀察值z=-2.475(a)顯著性水平為0.05(b)顯著性水平為0.01思維導圖本書結構假設檢驗基本原理提出假設兩類錯誤和顯著性水平經驗統計量和拒絕域用P值決策總體均值的經驗大樣本正態分布正態總體方差已知小樣本正態分布正態總體方差未知小樣本t分布總體比例的經驗大樣本t分布提出假設構建統計量計算P值做出決策表述結果賈俊平2024/3/137.1變量間關系的度量7.2一元線性回歸分析7.3利用回歸方程進行估計和預測
相關與回歸分析內容提要相關與回歸是分析變量之間關系的統計方法。從所處理的變量多少來看,如果研究的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網絡安全應急響應與安全設備采購合同
- 電商平臺數據同步補充協議
- 網店運營稅費代征代繳服務合同
- 觀光車維保合同范本
- 白名單授權協議書
- 淘寶店鋪銷售數據分析與運營決策支持合同
- 各工種承包協議書
- 零售加盟商權益保障協議
- 舊門窗拆除協議書
- 房屋共享權協議書
- 通用造價35kV~750kV線路(國網)課件
- 2022年廣東省深圳市中考化學真題試卷
- 工貿企業有限空間作業場所安全管理臺賬
- 國際財務管理教學ppt課件(完整版)
- DB33∕T 715-2018 公路泡沫瀝青冷再生路面設計與施工技術規范
- 彩色簡約魚骨圖PPT圖表模板
- 光引發劑的性能與應用
- PID控制經典PPT
- 圖像處理和分析(上冊)課后習題答案(章毓晉)
- 油田注入水細菌分析方法+絕跡稀釋法
- 醫師處方權申請
評論
0/150
提交評論