中國電信維護崗位技能認證資料:17-1 網絡運行分析-統計學基礎知識_第1頁
中國電信維護崗位技能認證資料:17-1 網絡運行分析-統計學基礎知識_第2頁
中國電信維護崗位技能認證資料:17-1 網絡運行分析-統計學基礎知識_第3頁
中國電信維護崗位技能認證資料:17-1 網絡運行分析-統計學基礎知識_第4頁
中國電信維護崗位技能認證資料:17-1 網絡運行分析-統計學基礎知識_第5頁
已閱讀5頁,還剩26頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

網絡運行分析—統計基礎中國電信維護崗位認證教材編寫小組編制

第一章:導論統計研究的具體方法有哪些?統計研究著眼于總體的數量特征,所用的基本方法都與總體數量性有關,這些基本方法是:大量觀察法。大量觀察法是指統計研究客觀事物的現狀及其發展變化過程,要從總體的全部或足夠多的個體進行觀察和綜合分析的一種統計研究基本方法。運用大量觀察法,必須對研究對象的所有單位進行觀察調查。例如,普查、抽樣調查、統計報表調查等等都是大量觀察法的具體應用。統計分組法。它是根據統計研究的任務和被研究總體內在特點,按照所確定的分類或分組標準,將被研究總體區分為性質不同的類別或組的一種統計研究基本方法。例如,國民經濟分為一產、二產、三產業;按行業分為工業、農業、建筑業等;按核算方法分為貨物與服務等等。一個統計總體是同質性、大量性與差異性的對立統一體,統計分組就是對這三種性質的綜合分析。綜合指標法。綜合指標是指,統計絕對數、統計相對數和統計平均數。綜合指標法是指將這三種指標有機的結合起來對總體的數量特征與數量關系進行全面分析的統計基本方法。例如,某班學生人數40人,統計期末考試總成績3200分,這是統計絕對數;平均成績80分,這是統計平均數;及格率96%,優秀率25%,這是統計相對數。他們綜合說明該班統計科的學習情況。統計模型法。它是根據一定的理論和假定條件,應用數學方程式去模擬現實經濟現象相互關系的一種統計研究基本方法。歸納推斷法。從個別到一般,從事實到理論,進行概括的推理方法,邏輯上稱為歸納法。常常存在這種情況;人們所能觀察到的只是部分或有限的單位,而所需要判斷的總體范圍卻是大量的,甚至是無限的。這就產生了根據部分數據資料對總體數量特征作出判斷的問題。以一定的置信標準要求,根據部分數據判斷總體數量特征與數量關系的歸納推斷方法稱為歸納推斷法。統計工作可以分為哪幾個階段?統計設計統計調查(數據采集)數據整理數據分析數據提供和管理統計指標與統計標志說明總體特征的名稱叫統計指標。表明總體綜合數量特征與數量關系的數字資料稱為指標。例如,某班某期末學生40名,期末平均成績80分,優秀率30%,及格率98%。它包括;時間限制、空間范圍、指標名稱、計算方法、計量單位、具體數值六個要素。統計指標按照構成分類,分為2類:設計指標:指標名稱、計量單位、計算方法。實際指標:時間、空間、名稱、計量單位、核算方法/口徑/范圍、數值統計指標按照數值分類,分為2類:數量指標:說明總體外延規模,表明總體總量與標志總量/流量與存量、用絕對數表示。質量指標:說明總體內部數量關系和狀況、通過數量反映質量、用相統計相對數和統計平均數表示。一個統計總體可以有多個指標,都用數量表示。說明總體單位特征的名稱叫統計標志。標志是表明總體單位屬性或數量的名稱。按照性質不同分為:品質標志:表明總體單位屬性的名稱。用文字表示,包括分類數據和排序數據。數量標志:表明總體單位數量的名稱。用數值表示,包括測量值數據和計數值數據。標志的表現,是指在標志名稱的后面所列示出來的屬性或數量。例如,“民族”是品質標志名稱,漢、回、蒙、藏、…,為品質標志的表現;“年齡”是數量標志名稱,16歲、17歲、18歲、…,為數量標志的表現。指標是相應的總體單位及其標志值的匯總與綜合。由于統計研究目的和任務的變更,原來的總體變成總體單位,那么原來的指標就相應地變成標志,兩者變動方向相同。舉例說明樣本、參數、統計量、變量這幾個概念。樣本是從總體中抽取的一部分元素的集合。比如從一批燈泡中隨機抽取100個,這100個燈泡就構成了一個樣本。參數是用來描述總體特征的概括性數字度量。比如要調查一個地區所有人口的平均年齡,“平均年齡”即為一個參數。統計量是用來描述樣本特征的概括性數字度量。比如要抽樣調查一個地區所有人口的平均年齡,樣本中的“平均年齡”即為一個統計量。變量是說明現象某種特征的概念。數量標志或統計指標的不同取值,統計上稱為變量。也就是說標志或指標會出現不同值,包括時間上或空間上不同的值。因此,數量標志和統計指標的名稱稱為變量,其具體取值稱為變量值。變量是可變的數量標志和指標。比如商品的銷售額是不確定的,這銷售額就是變量。第二章:數據的收集統計調查方式:統計報表、普查、抽樣調查等。統計報表是按照國家有關法規的規定,自上而下地統一布置,以一定的原始記錄為依據,按照統一表式、統一項目、統一報送時間和程序,自下而上地逐級提供基本統計數據的一種調查方式。普查是為某一特定目的而專門組織的一次性全面調查。我國進行的普查主要有人中普查、工業普查、農業普查等。抽樣調查是從調查對象的總體中隨機抽取一部分單位作為樣本進行調查,并根據樣本調查結果來推斷總體數量特征的一種數據收集方法。特點:經濟性,時效性強,適應面廣,準確性高。重點調查是對總體中重點單位進行調查,取得反映總體基本數據的調查方法。重點單位數占總體單位數比重小,他們的標志值之和占總體標志值總量的比重大,有舉足輕重的作用。典型調查是對調查對象進行分類劃點的基礎上,有意識挑選具有代表性的單位進行深入細致的調查。有好典型與壞典型之分。重點、典型、抽樣調查的區別三者都是非全面調查,區別如下:全面調查與非全面調查的區別二者區別是以所包含的調查單位是總體的全部還是部分為依據,而不是以最后得到的是否為全面資料為依據。因為有的非全面調查其目的仍然是獲取總體數據,如,抽樣調查。經常性調查和一次性調查的區別二者區別是以調查數據的登記在時間上是否具有連續性為依據。經常性調查是指一段時期內的流量;一次性調查是指某時點上的存量。采集統計數據的具體操作方法直接觀察法:調查人員深入現場進行觀察、計數、登記、檢驗等,取得第一手資料。報告法:被調查單位依據原始記錄、核算資料、清查盤點,填報統計數據。訪問法:調查者通過口頭、郵件、網絡、報紙雜志等方式向被調查者采集數據。問卷法:利用統一設計的答卷向被調查者采集統計資料。統計數據的誤差統計數據的誤差通常是指統計數據與客觀現實之間的差距,誤差的主要類型有抽樣誤差和非抽樣誤差兩類。抽樣誤差主要是指在樣本數據進行推斷時所產生的隨機誤差(無法消除);非抽樣誤差是人為因素造成的(理論上可以消除)第三章:數據整理與展示統計數據整理的內容與步驟:設計整理方案:主要明確規定出統計分組的方法和要匯總的統計指標與指標體系。數據審查:對于通過調查取得的原始數據,應主要從完整性和準確性兩個方面去審核。數據分組:根據統計研究的要求,按照選定的分組標志,將審核后的原始數據進行分類或分組。數據匯總與計算:對分組后的數據進行匯總與計算的方法主要有手工匯總和計算機匯總。編制統計表、繪制統計圖。對分類數據和順序數據主要是做分類整理,對數值型數據則主要是做分組整理。直方圖與條形圖的差別:條形圖是用條形的長度表示各類別頻數的多少,寬度則是固定的;直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距,因此其高度與寬度均有意義。直方圖的各矩形通常是連續排列,而條形圖則是分開排列。條形圖主要用于展示分類數據,而直方圖則主要用于展示數值型數據。變量分布數列的編制方法單項式變量分布數列的編制方法單項數列是把每個變量值作為一組所生成的數列。例如,某生產組20名工人同種產品日產量如下(單位:件):1613181519141713151719151718141615161716這是一個離散型變量,變量值不多、變動范圍不大,宜編制單項式變量分布數列。A.按變量值大小順序排列:1313141415151515161616161717171718181919B.每種變量值為一組(重復者只取一個)順序排列:13141516171819七組C.列入表中并匯總計算各組頻數:如下表所示,為20名工人的日產量資料:也可以畫圖如下:組距變量數列的編制方法例如,某班40名學生某科某次考試成績如下:54606297855283799580898577688693708178897189808575789066787382829977888475887680試編制等距數列。A.將數據順序排列,并判斷變量性質。52546062666870717375767777787878798080808182828384858585868888898989899093959799變量性質為連續變量,宜編制組距式變量數列。B.計算全距全距=最大變量值-最小變量值該班成績全距=99–52=47(分)C.確定組限、組距和組數組限是指每組的兩端變量值,每個組的起點值稱為下限,每個組的終點值稱為上限。組距是指上限值與下限值之差,即組距=上限值-下限值組數是指變量數列應劃分為多少個組。確定組距與祖數的具體方法如下:所使用的全距最小值應略低于實際資料的最小值,自50分開始,最大值應略高于實際資料最大值,最大值取100分。則本例全距為100-50=50。若組距為5,則組數=全距÷組距=50÷5=10(組)若組距為10,則組數=50÷10=5(組)本例采用組距為10,組數為5。D.列表匯總計算匯總計算要遵循“不重不漏”的原則。連續型變量數列相鄰兩組的組限采用“重限分組”的方法,即相鄰兩組之間的組限用同一個數值標記。為了處理好恰巧是組限的變量值的總體單位的歸屬問題,應按“不含上限,含下限”的原則處理。例如,60分者應歸入60~70組中,70者應歸入70~80組中,80分者應歸入80~90組中,90分者應歸入90~100組中。見下表。將整理表編制成正式表,如下表所示:組中值是每組的中點數值,計算方法(上限+下限)÷2。如,(50+60)/2=55、(60+70)/2=65、(70+80)/2=75、(80+90)/2=85、(90+100)/2=95等。開口組變量分布數列的編制若變量值中有特大或特小的極端值出現時,為避免出現空白組或個別極端值被遺漏,最小組和最大組可采用開口組辦法解決,即“╳╳以下”、“╳╳以上”。并以相鄰組組距作為其組距。例如,某班40名學生考試成績如下:365660606464646868687070757575757878787878787979797984848585888889898989959598100編制等距變量數列如表2-7所示。兩個開口組均用鄰組組距,即均為10。60以下組組中值為:上限–鄰組組距÷2=60–10÷2=5590以上組組中值為:下限+鄰組組距÷2=90+10÷2=95本節小結第四章:統計數據的顯示統計數據的顯示方法有表格法與圖示法兩種形式。統計表統計表的概念將匯總得到的統計數據按一定順序排列在表格中,這種表格稱為統計表。統計表的結構形式上:總標題、橫行標題、縱欄標題、數字資料。內容上:主詞欄、賓詞欄。統計表的分類按作用分類:調查表、匯總表(整理表)、分析表按主詞分類:簡單表、分組表、復合表按賓詞分類:簡單排列、分組排列、層疊排列。按主詞分類示例簡單表主詞未經分組,只排列空間順序。例如:某年某進出口公司商品收購計劃完成情況(單位:萬元)主詞按時間順序排列的簡單表。例如:某年某企業增加值統計表(單位:百萬元)分組表分組表:主詞只按一個標志分組的統計表。例如:某年全社會固定資產投資統計表復合表主詞按兩個或兩個以上標志分組的統計表,如在校人數統計表:在復合分組表中設計橫行標題時,應在第一次分組的各組組別下退一、二字填寫第二次分組的組別,此時第一次分組的組別就成為第二次分組的個組小計。若需再進行第三、四次分組,均可按此類推。例如:按賓詞分類示例簡單排列賓詞不加任何分組,按項目或時間排列。如:某地區工業企業主要經濟指標統計表平行排列賓詞各欄平行設計,如:各地社會商品零售總額統計表(單位:億元)再如,某商廈三個商場職工性別和年齡構成統計表層疊排列兩個或兩個以上標志分組后上下層疊起來列示。例如:1998-2002年農村勞動力分布情況統計圖利用幾何圖形或具體形象來顯示統計數據,按表現形式分為幾何圖、象形圖、統計地圖等形式。第五章總體變量分布特征描述什么是統計絕對數?它是表明總體規模的絕對數量,即表明現象大小多少的總量,在社會經濟統計中稱為總量指標。統計絕對數多是在試驗、調查和整理中直接獲得,也有一些是間接或推算得到。統計絕對數是統計描述的基礎數據,是從數量上認識客觀事物的起點數據,又是計算統計相對數與統計平均數的基礎數據。在運用統計絕對數時,應注意正確使用計量尺度和計量單位以及準確界定被研究對象的總體范圍和口徑。統計絕對數分為哪幾類?按其描述對象不同可分為:總體單位總數和標志值總量總體單位總數即單位總量,指總體內所包含的單位總數。標志值總量即標志總量,指總體內所有單位上標志值總和。例如:某生產組25名工人日產量資料按時間狀況分為:時期性總量(流量)和時點性總量(存量)時期性總量:指一段時間內的總量時間性總量:指某一時點上的總量按計量單位分:實物總量、價值總量、勞動時間總量統計絕對數的計量單位有哪些?A.實物單位實物單位是根據事物的自然屬性和物理屬性度量其數量的計量單位,常用的有:自然單位。是按照現象的自然狀態來度量其數量的計量單位。例如,人口用“人”、牛用“頭”、汽車用“輛”等計量單位。度量單位。是指國家度量衡制度統一規定的計量單位。例如,重量用“噸”、“克”表示;長度用“公里”、“米”等表示;面積用“平方米”、體積用“立方米”等表示。復合單位。是指兩種單位結合而成的計量單位。例如,發電量用“千瓦時”表示;貨運量用“噸公里”表示等等。雙重或多重單位。是指同時采用兩種或兩種以上計量單位表明某一事物的數量。例如,電動機用“千瓦/臺”表示;拖拉機用“馬力/臺”表示;船舶用“艘/馬力/噸”表示等等。B.貨幣單位是用貨幣來表示的計量單位。例如,我國用人民幣元、角、分為計量單位;國際用美元、歐元、日元等表示。C.勞動時間單位是用勞動時間來表示的計量單位。例如,工日、工時等。1個工人工作1小時叫做1個工時,8個工時為1個工日。一組數據的分布特征可以從哪幾個方面進行測度?一是分布的集中趨勢反映各數據向其中心值靠攏或聚集的程度;二是分布的離散程度,反映各數據據遠離其中心值的趨勢;三是分布的形狀,反映數據分布偏斜程度和峰度。變量分布集中趨勢指什么?集中趨勢描述的實質是:找出變量值的集中點或中心值。常用方法有:算術平均數、幾何平均數、中位數和眾數等。變量分布離中趨勢指什么?均值是描述變量分布集中趨勢,標準差是描述變量分布離中趨勢,兩者相輔相成共同反映變量分布特征的一對對立統一的代表值。描述離中趨勢的代表值常用的有:極差、標準差和離散系數等。(具體見第12點之后的介紹)為什么要計算離散系數?極差、平均差、方差和標準差等都是反映數據分散程度的絕對值,其數值的大小取決于原變量值本身水平高低的影響。它們與原變量值的計量單位相同,采用不同計量單位計量的變量值,其離散程度的測度值也就不同。因此,為消除變量值水平高低和計量單位不同對離散程度的測度值的影響,需要計算離散系數。各類數據離散程度的表示方法對于分類數據,主要用異眾比率來測度其離散程度;對于順序數據,主要用四分位差來測度其離散程度;對于數值型數據,主要用方差或標準差來測度其離散程度。算術平均數的概念算術平均數是測定集中趨勢最常用的代表值,它是同質總體內某類變量所有變量值的平均數。它的實質是把同質總體中各單位變量值的差異(離差)正負相互抵消后反映變量集中趨勢中心點的代表值。因此,統計平均數是對變量數列圍繞中心值分布狀況的一種統計描述。例如:繪制成線段圖:甲數列集中程度大,乙數列離散程度大。顯然,變量的離散趨勢大集中趨勢低如乙數列;離散趨勢小集中趨勢高如甲數列。算數平均的分類簡單算數平均加權算數平均加權算數平均分為:根據單項變量分布數列計算算術平均數例如:某生產組10名工人生產甲產品,日產量分組資料見下表,試計算工人平均日產量計算表明,平均日產量26件趨近工人數最多即頻數最大的那個變量值30件。由上例可以看出,用分組數據計算平均數,平均值的大小受兩個因素影響:一個是各組變量值x,另一個是各組次數即頻數f的影響。當各組變量值x不變時,各組次數即頻數f對平均值的大小起著權衡輕重的作用。因此,次數f稱為權數,這種方法稱為加權算術平均法。權數不僅可以用絕對數f表示,也可用相對數即頻率f/Σf表示。即:仍以上表為例,根據組距式變量分布數列計算加權算術平均數若掌握組距數列資料,計算方法是:先計算組中值xi,然后再按上述方法計算加權算術平均數。A.計算組中值:缺下限組組中值=上限–鄰組組距/2=400–100/2=350(件)缺上限組組中值=下限–鄰組組距/2=800–100/2=850(件)上下限齊全組組中值=(上限+下限)/2=(500+400)/2=450(件)B.計算平均數綜上,簡單算術平均數與加權算術平均數之間沒有根本區別,因為一個變量值乘上一個頻數(權數)與多次加總同一個變量值是意義相同的。它們的基本公式都是相同的:算術平均數=變量值總量/單位總量幾何平均數幾何平均數的概念幾何平均數的計算計算時應該注意的問題幾何平均數的特點主要用途計算幾何平均數要求各觀察值之間存在連乘積關系,主要用來:對比率、指數等進行平均計算平均發展速度:平均發展速度反映現象在一定時期內逐期發展變化的一般程度,這個指標在國民經濟管理和統計分析中有廣泛的應用,是編制和檢查計劃的重要依據。還可以用于一個國家或地區不同階段發展狀況的比較,以及同一時期不同國家或地區發展狀況的比較。其中:樣本數據非負,主要用于對數正態分布。簡述眾數、中位數和均值的特點和應用場合及關系。眾數是一組數據分布的峰值,不受極端值的影響,缺點是具有不唯一性。眾數主要作為分類數據的集中趨勢測度值。中位數是一組數據中間位置上的代表值,不受數據極端值的影響。中位數以及其他分位數主要適合于作為順序數據的集中趨勢測度值。均值是就數值型數據計算的,具有優良的數學性質,缺點是易受數據極端值的影響。均值主要適合于作為數值型數據的集中趨勢測度值。均值是集中趨勢的最主要測度值,它主要適用于數值型數據,而不適用于分類數據和順序數據。關系:如果數據的分布是對稱的,眾數、中位數和均值必定相等,即Mo=Me=xbar;如果數據是左偏分布,說明數據存在極小值,三者之間的關系表現為:xbar<Me<Mo;如果數據是右偏公布,說明數據存在極大值,必然拉動均值向極大值一方靠,則Mo<Me<xbar(圖)極差極差也稱全距,是變量值中最大值與最小值之差。用公式表示為:全距(R)=最大變量值-最小變量值。如:甲數列:68、69、70、71、72,R=72-68=4乙數列:50、60、70、80、90,R=90-50=40組距數列計算全距:全距(R)=最高值組上限值-最低值組下限值。例如:40名工人日產量資料全距R=100-50=50(件)用極差評價變量的離散狀況:極差值越小表明變量值離散范圍小,離散程度小,變量值集中,平均數代表性大;極差值越大,表明變量值離散范圍大,離散程度大,變量值分散,平均數代表性小。極差值對極端值反映靈敏。方差和標準差方差和標準差是最重要、最常用的離中程度的度量方法,多用于以算數平均數為集中趨勢度量的場合。方差是各變量值與其均值離差平方的平均數。標準差標準差是方差的平方根。標準差可以概括地、直接地、平均地描述變量發布的離散程度,是各變量值xi距離它們的平均數遠近的一種尺度。概率論指出,在正態分布中68%的變量值分布在距離平均數一個σ值的范圍內,95%的變量值分布在距離平均數兩個σ值的范圍內,其余的5%遠離平均數。簡單式標準差:計算示例:甲組:乙組:計算表明,乙組比甲組標準差小,則乙組比甲組離中程度小,即乙組變量值分布范圍比甲組集中,乙組平均數代表性大。加權式標準差:計算示例:單項數列的標準差計算計算公式如下:再如:組距變量數列標準差計算離散系數若研究的總體不同,或計量單位不同,或平均數相差懸殊,它們離中趨勢的絕對數是不可以比較的。為此,要計算離中趨勢的相對數,即離散系數。離散系數有幾種,常用的是標準差系數,它是標準差除以平均數表明每單位平均數的離散程度,用百分數表示,是變量分散性的相對程度度量。標準差系數常用字母“Vσ”表示,計算公式為:例如,比較總體相同,計量單位不同兩組變量數列的離散程度某市6歲男童體重與身高資料如下:平均數標準差體重:19.39千克2.16千克身高:115.87厘米4.86厘米計算表明體重變異大于身高變異。比較計量單位相同平均數差異大的兩組變量的離散程度。下表是成人組身高標準差計算表(單位:厘米)下表是幼兒組身高標準差計算表標準差系數為:計算表明成人組身高離散程度小于幼兒組。比較總體不同,計量單位也不同兩組變量的離散程度例如,甲國某企業員工月平均收入3000美元,標準差180美元;乙國某企業員工月平均收入7500歐元,標準差600歐元,問哪國員工月平均收入離散程度小?計算表明,甲國企業員工月平均收入離散程度小。平均數與標準差平均數通常可用來尋找變量分布的中心值;標準差則度量了各變量值對于平均數的分布程度。兩者關系用正態分布圖展示:四分位差四分位差主要用于測度順序數據的離散程度,數值型數據也可以計算四分位差,但不適合于分類數據。四分位差,也稱為內距或四分間距,它是上四分位數(QL)與下四分位數(QU)之差,通常用Qd表示。計算公式為:Qd

=QL-QU四分位差反映了中間50%數據的離散程度,其數值越小,說明中間的數據越集中;其數值越大,說明中間的數據越分散。四分位差不受極值的影響。此外,由于中位數處于數據的中間位置,因此,四分位差的大小在一定程度上也說明了中位數對一組數據的代表程度。四分位差主要用于測度順序數據的離散程度。對于數值型數據也可以計算四分位差,但不適合分類數據。四分位數是將一組數據由小到大(或由大到小)排序后,用3個點將全部數據分為4等份,與這3個點位置上相對應的數值稱為四分位數,分別記為Q1(第一四分位數)、Q2(第二四分位數,即中位數)、Q3(第三四分位數)。其中,Q3到Q1之間的距離的差又稱為四分位差,記為Q。四分位差越小,說明中間部分的數據越集中;四分位數越大,則意味著中間部分的數據越分散。經驗法則第六章抽樣與參數估計抽樣技術的含義抽樣技術的完整概念應包括對樣本的調查(抽樣調查)和對總體數據的估計(抽樣估計)兩個方面。抽樣調查它是一種非全面調查,是根據隨機原則從總體中抽取部分單位進行調查。這部分單位稱為樣本。而這部分單位數目的多少不是隨心所欲確定的,是根據一定原則和要求用科學的方法計算來確定。所謂隨機原則,就是可能性原則,是指在抽取樣本單位時,完全排除人們的主觀愿望,使總體中的每個單位機會均等,抽中與否全憑偶然。抽樣估計抽樣估計是在抽樣調查的基礎上,利用樣本數據根據概率論來估計總體相應數據的統計分析方法。抽樣技術總體、總體指標、樣本、樣本指標、抽樣誤差、概率估計等概念構成了抽樣技術中的最基本范疇。抽樣技術關系圖如下:抽樣技術的特點在調查單位的抽取上,遵循隨機原則。隨機原則使樣本單位的抽取不受任何主觀因素影響,使所抽取的樣本變量分布與總體變量分布相類似,從而保證樣本的代表性和估計的無偏性。在調查功能上,用樣本數據估計總體數據。抽樣調查是非全面調查,它具有從部分到總體、由具體到一般的推斷功能。在推斷手段上,以概率估計方法進行總體推斷。抽樣估計是以概率論為基礎的估計方法,用樣本數據估計總體數據時,其可靠性用一定概率保證程度來說明。例如,用城市居民樣本數據估計某電視節目的收視率、用居民樣本數據估計全市居民家庭收支情況等等。在推斷理論上,用大數定律的中心極限定理為基礎。中心極限定理證明隨著樣本單位數的增加,樣本變量分布趨向正態分布,樣本平均數接近總體平均數、樣本標準差接近總體標準差,從而為用樣本數據估計總體相應數據提供了科學的理論依據和方法。在推斷效果上,抽樣誤差可以計算并加以控制。用樣本數據估計總體相應數據會存在一定誤差,根據中心極限定理和正態分布規律,抽樣誤差可以事先計算出來并可以控制,從而使抽樣估計具有一定的可靠程度。隨機事件在相同條件下,每次試驗可能出現也可能不出現的狀態稱為隨機事件。概率一個隨機試驗有許多可能的事件,我們不僅想知道它們有哪些可能的事件,而且還想知道某些事件出現的可能性的大小,并希望將這一可能性用數值描述出來。為了定量地描述隨機事件,人們引入了一個描述隨機事件發生可能性大小的統計數據——隨機事件的概率。某一隨機事件發生的次數占所有隨機事件發生次數的比率就是該事件的概率。概率論,就是研究隨機事件規律性的科學。抽樣誤差統計學的研究目的是將實踐上升到理論,并將理論歸納升華為科學定理,切貝謝夫定理表明:隨著樣本n的容量增加,樣本平均數接近于總體平均數,當樣本單位數n足夠大時兩者的離差非常小,并以概率為1的把握使兩者相等。因此,人們在具體實際操作時,通常使用樣本統計量來計算抽樣誤差。影響抽樣誤差的因素抽樣理論研究和實踐證明影響抽樣誤差大小的因素主要有:總體各變量值X間差異大小如果其他條件不變,離散程度(σX或σP)越大,抽樣誤差μx或μp越大;反之,則越小。樣本單位數(樣本容量)的多少其他條件不變,樣本單位數n越少,抽樣誤差越大;反之,則越小。抽樣方法重復抽樣誤差大于不重復抽樣誤差。抽樣調查組織形式不同的抽樣組織形式會產生不同的抽樣誤差。常用的概率抽樣方法主要有哪些?簡單隨機抽樣,分層抽樣,系統抽樣,整群抽樣參數估計參數估計就是用樣本統計量來推算總體參數,有點估計和區間估計兩種方法。點估計區間估計區間估計是在一定概率論保證下用樣本統計量和抽樣誤差估計總體參數可能范圍的推斷方法。區間估計在用樣本統計量估計總體參數時,用某一個區間范圍的數值作為總體參數的估計值,并說明總體參數落在這一區間的可能性(概率)有多大,統計稱這一區間為置信區間。置信區間兩端點數值稱為置信上限和置信下限。總體參數落在置信區間內的概率稱為可靠程度。區間估計就是根據樣本統計量確定置信區間和可靠程度。概率論、大數定律和中心極限定理是參數估計的理論基礎。中心極限定理的內容簡要概括如下:大量客觀事物的總體現象是正態或近似于正態發布。在大樣本的條件下,樣本平均數的分布是或近似是正態分布。樣本平均數等于總體平均數,樣本成數等于總體成數。根據以上性質,可以按正態分布理論估計樣本平均數或樣本成數落在一定范圍內的概率來進行參數估計。正態分布的主要特征以總體平均數為中心兩側呈對稱分布,即樣本平均數大于或小于總體平均數的概率完全相等,就是說樣本平均數的正離差與負離差出現的可能性完全相等。樣本平均數越接近總體平均數,其出現的可能性越大;反之樣本平均數越遠離總體平均數,其出現的可能性越小。這種可能性數學上稱為概率F(t),也就是可靠性。與概率對應的數值稱為概率度,即抽樣誤差擴大的倍數,用字母t表示。概率F(t)與概率度t的對應函數關系如下:上圖顯示,樣本平均數與總體平均數的平均誤差不超過1μ的概率為0.6827,不超過2μ的概率為0.9545,不超過3μ的概率為0.9973。即:當t=1時,F(t)=0.6827當t=2時,F(t)=0.9545當t=3時,F(t)=0.9973概率度t與概率F(t)的對應關系是:概率F(t)越大,則概率度t值越大,估計的可靠性越高,樣本統計量與總體參數之間正負離差的變動范圍也越大。對于t每取一個值,概率保證程度F(t)有一個唯一確定的值與之對應。具體參見?正態分布概率表?。樣本容量的確定確定樣本容量是制定抽樣調查方案中的一個非常重要的問題。這是因為樣本容量的大小直接影響到抽樣估計效果。如果樣本容量太小,就會降低樣本對總體的代表性,從而降低抽樣估計效果;樣本過大必然增加人、財、物力的消耗,增加調查成本。不同的抽樣調查組織形式,其樣本容量的確定有不同的方法,這里僅以簡單隨機抽樣樣本容量的確定為例進行說明。影響樣本容量的因素如下:被研究總體標志變異程度。即總體標準差σ,σ越大樣本容量越大;σ越小樣本容量越小。允許誤差(極限誤差)?大小。?值大樣本容量小;?值小樣本容量大。概率度t的大小。t值大,把握程度高,樣本容量大;t值小,把握程度低,樣本容量小。抽取樣本單位方法。重復抽樣樣本容量大于不重復抽樣。抽樣組織形式。抽樣組織形式不同樣本容量也不同。第七章:相關與回歸分析簡述相關系數的取值及其意義,并說明相關程度的幾種情況。相關系數-1≤r≤1。相關關系分類:若0≤r≤1,表明x與y之間存在正線性相關關系,x增加,y也相應增加;若-1≤r<0,表明x與y之間存在負線性相關關系,x增加,y相應減少;若r=1,表明x與y之間為完全正線性相關關系;若r=-1,表明x與y之間為完全負線性相關關系。若y值幾乎不受x值影響,稱無相關。相關程度的幾種情況:|r|≥0.8時,可視為高度相關;0.5≤|r|<0.8時,可視為中度相關;0.3≤|r|<0.5時,視為低度相關;當|r|<0.3時,說明兩個變量之間的相關程度極弱。相關系數的計算方法判斷現象之間相關關系表現形式的方法是散點圖;測定現象之間相關關系密切程度的方法是計算相關系數。回歸分析回歸分析是指對具有顯著相關關系的變量,根據其相關形態選擇一合適的數學方程來表達變量間的平均變動關系的統計分析方法。相關分析與回歸分析相比,對變量的性質要求是不同的,回歸分析中要求(A)A、自變量是給定的,因變量是隨機的B、兩個變量都是隨機的C、兩個變量都是非隨機的D、因變量是給定的,自變量是隨機的相關與回歸分析的關系相關分析是回歸分析的基礎和前提一般先進行相關分析,對相關關系的密切程度做出判斷,進而決定是否進行回歸分析。回歸分析是相關分析的深入和繼續回歸分析是指把相關變量的關系轉化為函數關系并建立數學方程式,來研究變量之間數量變動關系的統計分析方法。如果僅有回歸分析而缺少相關分析,就會因為缺乏必要的基礎和前提而影響回歸分析的可靠性;若僅有相關分析而缺少回歸分析,就會降低相關分析的意義。只有把兩者結合起來才能達到分析研究的目的。回歸分析的步驟定性判斷現象間有無相關關系編制相關圖表,顯示變量間相關關系形態計算相關系數,測定變量間相關關系的密切程度配合適當的回歸方程式,進行回歸計算。簡單直線回歸分析對具有顯著直線相關的兩個變量變化的一般關系進行測定,只研究一個因變量與一個自變量的線性關系,稱一元線性回歸分析,即直線回歸分析,其回歸方程最簡單故又稱簡單直線回歸分析。用直線方程來表明兩個變量間的變動關系,并進行估計和推算的分析方法稱為簡單線性回歸分析。簡單直線回歸方程是借助于數學中的直線方程近似反映兩個變量間的一般線性數量關系,并根據自變量推算因變量。式中:a直線截距

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論