




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第二章環境數據
統計與分析第二章環境數據
統計與分析12環境數據統計與分析2.1數據統計與分析的基本范疇2.2常用的統計指標2.3環境樣本特征推斷2.4參數估計2.5顯著性檢驗2.6直線相關與直線回歸2.7環境數據統計與分析的計算機處理2.8可疑值的取舍2環境數據統計與分析2.1數據統計與分析的基本范疇22.1數據統計與分析的基本范疇2.1.1總體與樣本
統計學中,把性質相同的研究對象的所有觀測結果的集合稱為總體(population)。總體又分為無限總體和有限總體。 在實際工作中,常常是從被研究的總體中隨機抽取部分觀測結果進行研究。每個部分觀測結果的集合稱為樣本。 從總體中隨機抽取樣本用以推斷總體的方法稱為抽樣研究。
2.1數據統計與分析的基本范疇2.1.1總體與樣本32.1.2參數與統計量統計指標 統計學中,把根據規定的函數關系計算出的描述總體或樣本特征的函數值稱為統計指標(index)。參數 由總體資料計算出的統計指標稱為參數(parameter),用于描述總體特征。統計量 由樣本資料計算出的統計指標稱為統計量(statistic),用于描述樣本特征。2.1.2參數與統計量統計指標42.1.3變異與誤差變異(variation) 變異指觀測結果之間實際存在的差異。誤差(error) 誤差指觀測結果與真實值之差及統計量與參數之差。過失誤差(grosserror)——過失誤差可以避免;系統誤差(systematicerror)——系統誤差可以減少;隨機誤差(randomerror)——隨機誤差無法消除。2.1.3變異與誤差變異(variation)52.2常用的統計指標2.2.1平均數2.2.2變異數2.2.3相對數2.2常用的統計指標2.2.1平均數62.2.1平均數定義 平均數(average)是表示觀測值的平均水平的統計指標,常用的有算術平均數、幾何均數及中位數。2.2.1平均數定義72.2.1.1算術均數定義 算術均數(arithmeticmean),簡稱均數,常用、希臘字母μ表示,表示樣本均數,μ表示總體均數。均數適用于正態分布資料統計。計算方法直接計算法頻數-加權計算法2.2.1.1算術均數定義8直接計算法 當觀察值的個數不多時,將所有觀察值x1,x2,x3,…,xn直接相加,其和除以觀察值的個數n,即為均數。 計算公式: 式中, 算術平均數 x1,…,xn 各觀察值 ∑ 求和符號 ∑x 觀察值總和 n 觀察值的個數直接計算法9頻數-加權計算法
對一個隨機事件作重復觀察,其中某觀察值出現的次數稱頻數; 各觀察值對應的頻數稱為頻數分布;顯示各觀察值對應的頻數的表格稱為頻數分布表,簡稱頻數表。頻數-加權計算法10
頻數-加權計算法計算步驟
①計算全距 找出觀察值中的最大值、最小值,并計算全距(range),全距=最大值-最小值。 ②定組段數 一般取8~15個為宜,多取10個,組段數太多,計算較繁,組段數過少則誤差較大。 ③定組距(classinterval) 相鄰兩組段下限值之差為組距(classinterval)。各組段的組距可以相等,也可以不等。若擬定為相等組距,則組距=全距/組段數,為便于觀察值歸組,組距常取整數。頻數-加權計算法計算步驟11
④定組段(classrange) 即定各組數據的上下限,俗稱“封口”。通常,某組段的最小值為下限(lowerlimit),相鄰較大組段的下限即本組段的上限(upperlimit)。第一組段應包括最小值,最末組段應包括最大值。
⑤計數(fi) 劃分組段后,將原始數據以適當方式劃記計數(常用“正”字法)歸組。得頻數分布表。
⑥計算組中值(Classmid-value)(xi) 組中值= ⑦計算均數
將各組段的頻數與組中值之積相加求和,再除以總頻數即得均數。
第二章環境數據統計與分析課件122.2.1.2幾何均數定義
幾何均數(geometricmean,G),也叫倍數均數,當觀察值相差較大甚至成倍數關系時,如用算術均數表示其平均水平時受少數特大或特小值影響較大,則用幾何均數來表示其平均水平。計算步驟
先對觀察值取數值,計算對數值的均數后,再查反對數,即得幾何均數。計算方法直接計算法頻數表法2.2.1.2幾何均數定義13直接計算法直接計算法14頻數表法 當觀察值較多時,可先編頻數表,再按頻數表計算幾何均數。頻數表法152.2.1.3中位數定義
中位數(median,M,Md)指全部觀察值按大小順序排列,居于中間位置的數值。 偏態分布資料,一端或兩端有不確定數值分布的資料,分布情況不清的資料,適宜用中位數統計。計算方法直接計算法頻數表法2.2.1.3中位數定義16直接計算法
樣本含量n較少時,先將觀察值按大小順序排列,再進行計算。
直接計算法17頻數表法 中位數是一個特定的百分位數,在全部觀察值中有一半比它大,一半比它小。當例數較多時,先將觀察值編制頻數表,再按公式計算。
頻數表法182.2.2變異數定義
變異數是表示觀察值變異水平的統計指標,常用指標有極差、方差、標準差和變異系數等。
2.2.2變異數定義192.2.2.1極差定義
亦稱全距(rangc,R),即一組觀察值中最大值與最小值之差。R=Xmax-Xmin特點
全距反映了變異的范圍,極差大,變異度大;極差小,變異度小。缺點
用極差表示變異程度的大小簡單明了,但它僅考慮了觀察值的最大值和最小值,而沒有考慮其他數值,因此是不夠全面的。
2.2.2.1極差定義202.2.2.2方差
要克服全距的缺點,必須全面考慮到每個觀察值。 首先考慮用每一個觀察值與均數之差的和即離均差總和Σ(x-)來描述。 再考慮用離均差平方和∑(x-)2來描述。 最終考慮用離均差平方和的均數即方差S2來描述。
2.2.2.2方差 要克服全距的缺點,必須全面考慮到每212.2.2.3標準差定義
為了保持與原觀察值及其均數的單位一致,將方差開平方,即得標準差,以S表示。特點
標準差直接表示觀察值分布的離散程度,間接反映樣本的代表性。 在觀察單位數相同,均數相近條件下,標準差較大,表明觀察值的變異程度較大,即觀察值圍繞均數的分布較離散,因而樣本的代表性較差;反之,標準差較小,表明觀察值的變異程度較小,觀察值圍繞均數的分布較密集,樣本的代表性好。2.2.2.3標準差定義222.2.2.4變異系數定義 對均數相差較大或性質不同的資料,不能直接用標準差比較變異程度的大小,要用變異系數作比較。特點
與標準差一樣,變異系數愈大,表明觀察值的變異程度愈大,變異系數愈小,表明變異程度愈小。
2.2.2.4變異系數定義232.2.3相對數定義
環境研究直接觀測到的數據稱為絕對數,絕對數雖然能反映調查中所發現的某種現象的絕對水平,但作深入分析時,僅看絕對數是不夠的,必須考慮使用相對數(relativenumber),即兩個有聯系的指標之比。 常用相對數有率、比等。
2.2.3相對數定義242.2.3.1率定義
率(rate)是某一現象發生的頻度(頻繁程度)或強度,通常指在一定條件下某種現象實際發生的次數與可能發生該現象的總次數之比。率=
率的比例基數可用100、1000、10,000、100,000等分別稱為百分率,千分率,萬分率,或十萬分率。環境監測常用的率有:
檢出率= 回收率= 最高濃度出現率= 殘留率= 超標率=
2.2.3.1率定義252.2.3.2構成比定義
構成比(constitutionratio)是事物內部某種構成部分對總體之比。說明部分在總體中所占的比重,是一種用來表示事物內部各構成情況的指標。 構成比=
2.2.3.2構成比定義262.2.3.3相對比定義
相對比(relativeratio)指兩個有關聯的同類指標的比。以倍數或百分數(%)來表示,其計算式: 相對比=常用的相對比有倍數、指數、系數等。
2.2.3.3相對比定義27倍數 在大氣監測中,經常用測定值與國家衛生標準值的比較來評價車間、工廠或大氣的污染程度。指數(index) 環境保護研究中,指數是環境污染物的實測濃度對該污染物在環境中的容許濃度的比值,是環境質量評價的常用手段。
I=
I:環境質量指數 C:污染物實測平均濃度 S:污染物容許標準。系數 如排毒系數,環境污染物的排放濃度對該污染物的排放標準的比值,用于表示各種污染物和污染源對環境的毒害的潛在能力。倍數282.3環境樣本特征推斷環境樣本特征 主要指環境樣本的分布形式和環境樣本的正常值范圍等,可以利用獲得的統計量進行統計處理,完成上述推斷工作。2.3環境樣本特征推斷環境樣本特征292.3.1樣本特征推斷的理論基礎--正態分布定義 正態分布(normaldistribution)又稱高斯分布(GaussianDistribution),是以均數為中心的對稱鐘型分布。 正態曲線是一條高峰位于中央,兩側完全對稱并逐漸下降但永遠不與橫軸相交的鐘形曲線 正態曲線由和兩個參數決定,為總體均數,為總體標準差。決定正態曲線的位置,決定正態曲線形狀。2.3.1樣本特征推斷的理論基礎--正態分布定義302.3.2樣本特征推斷樣本分布形式的判定確定正常值范圍確定樣本所代表總體的理論頻數分布2.3.2樣本特征推斷樣本分布形式的判定312.4參數估計定義 探知研究對象的總體特征是環境研究的主要目標,由于總體龐大的原因,直接計算參數是極其困難的,因此,往往用樣本統計量來估計總體參數,這個過程稱為參數估計(estimationofparameter)。 本節主要討論總體均數估計的基本問題。總體均數估計分為點估計和區間估計。 點估計(pointestimation)是根據一個樣本求出總體參數的具體數值,常用根據極大似然法原理導出的公式計算極大似然估計量。 由于存在變異和抽樣的隨機性,用不同的樣本推斷總體時,可能得到不同的參數估計值。因此更穩妥的辦法是采用區間估計。2.4參數估計定義322.4.1總體均數區間估計的理論基礎――t分布
2.4.1.1抽樣誤差定義 對樣本的統計結果與總體的“真實”之間必然存在差異,這種由于抽樣而引起的樣本與總體之間的差異稱為抽樣誤差。標準誤差
樣本均數的標準差稱為標準誤差,。計算公式為:
在實際工作中,總體標準差常屬未知,只能用樣本標準差S代替作為最佳的無偏估計,于是標準誤的計算公式變為:2.4.1總體均數區間估計的理論基礎――t分布2.4.332.4.1.2描述樣本均數的分布――t分布
從一個均數為,標準差為的正態總體中,隨機抽取含量為n的樣本,可計算樣本均數,樣本標準誤,則將樣本均數與總體均數的離差以樣本標準誤為單位,得正態(離)差t=,若干樣本的t值就構成統計上著名的t分布。 實際工作中總體標準差往往是不知道的,只能用樣本標準差S來代替,于是得 t==
2.4.1.2描述樣本均數的分布――t分布 從一個均數342.4.2總體均數的區間估計區間估計(intervalestimation) 按預先給定的概率,由一個樣本均數及其標準誤求出總體均數數值范圍的過程。“預先給定的概率” 也稱為可信度、可信水平、可信系數,符號為1-α,常取0.99或0.95。“總體均數數值范圍” 也稱為可信區間,符號為CI。其含義是:由一個樣本均數及其標準誤求出的被估計參數值有0.99或0.95的可能在此數值范圍內,或由若干個樣本均數及其標準誤求出的若干個被估計參數值中,有99%或95%的個數可能在此數值范圍內。
2.4.2總體均數的區間估計區間估計(interval352.4.3總體率的區間估計 可仿照總體均數的可信區間估計的方法來估計總體率的所在范圍,即求總體率的可信區間,我們介紹兩種方法。正態近似法
當n足夠大,且p和(1-p)不接近零,有np和n(1-p)均大于5時,總體率的可信區間為: 式中uα為可信度1-α時的標準正態離差,由u界值得知,如99%可信區間時,α=0.01,uα=2.58,95%可信區間時,α=0.05,uα=1.96。
查表法
當n≤1000,p≥l%時,可查附表3(百分率的可信限表),得到總體率的可信區間。
2.4.3總體率的區間估計 可仿照總體均數的可信區間估362.5顯著性檢驗兩均數差異顯著性檢驗樣本均數與總體均數的差異顯著性檢驗兩樣本均數的差異顯著性檢驗兩個幾何級數樣本均數的差異顯著性檢驗配對資料的差異顯著性檢驗兩個大樣本均數的顯著性檢驗——u檢驗方差不齊的兩樣本均數差異的顯著性檢驗——tˊ檢驗2.5顯著性檢驗兩均數差異顯著性檢驗372.5.1顯著性檢驗的含義與一般步驟含義 在回答樣本與總體是否有本質差異或差異是否有顯著時,必須考慮:樣本與總體差異無顯著性和樣本與總體差異有顯著性2種情況。究竟屬于那種情況,需通過差異顯著性檢驗來回答。顯著性檢驗的步驟建立“檢驗假設”確定檢驗水準選擇檢驗方法和計算統計量確定概率做出推斷結論2.5.1顯著性檢驗的含義與一般步驟含義382.5.2兩均數差異顯著性檢驗2.5.2.1兩均數差異顯著性檢驗的基本思路 t檢驗是檢驗兩均數間差異顯著性的基本方法。 按式(2.20)計算統計量t值后,與根據相應自由度查附表2(t值表)所得的t界值進行比較,判斷均數間差異的顯著性。 ∣t∣﹤t0.05(v)P﹥0.05差異無顯著性 若t0.05(v)≤∣t∣﹤t0.01(v)則0.05≥P﹥0.01即差異有顯著性 ∣t∣≥t0.01(v)P≤0.01差異有極顯著性 當v(自由度)﹥50時,可直接采用正態分布臨界值1.96或2.58來判斷P大于還是小于0.05或0.01。2.5.2兩均數差異顯著性檢驗2.5.2.1兩均數392.5.2.2樣本均數與總體均數的差異顯著性檢驗【例2.17】解題步驟:建立檢驗假設計算t值確定p值結果判斷2.5.2.2樣本均數與總體均數的差異顯著性檢驗【例402.5.2.3兩樣本均數的差異顯著性檢驗
兩樣本均數比較是最常見的統計比較研究,又稱成組比較,其目的是推斷兩樣本分別代表的總體均數μ1與μ2是否相等。
采用下面的公式來檢驗兩均數的差異是否有顯著性。2.5.2.3兩樣本均數的差異顯著性檢驗 兩樣本均數412.5.2.4兩個幾何級數樣本均數的差異顯著性檢驗 檢驗兩個幾何均數的差別是否有顯著性,所采用的方法,仍然是t檢驗法,只是將所有數值全部轉換為對數值進行計算。2.5.2.4兩個幾何級數樣本均數的差異顯著性檢驗 422.5.2.5配對資料的差異顯著性檢驗 在實驗研究中,常采用配對比較的方法。配對研究的目的是比較兩種處理方法或實驗前后的結果有無差異。 配對資料的實驗設計有兩種:①同體配對,實驗對象自身對比;②非同體配對。
2.5.2.5配對資料的差異顯著性檢驗 在實驗研究中432.5.2.6兩個大樣本均數的顯著性檢驗—u檢驗 當兩個樣本的觀察單位數較多時(每組n﹥50),資料分布基本近似于正態分布,可以用u檢驗。 計算出u值后,直接根據表2.13u檢驗的檢驗水準表作出結果判斷。2.5.2.6兩個大樣本均數的顯著性檢驗—u檢驗 442.5.2.7方差不齊的兩樣本均數差異的顯著性檢驗——tˊ檢驗 使用t檢驗的前提條件是兩個總體的方差相等,。 事實上,即使兩個總體方差相等,樣本方差也會因為抽樣而出現波動,因此必需對兩組樣本進行方差齊性檢驗。如果方差齊性檢驗顯示方差不齊時,則不能直接采用t檢驗,需要用校正t檢驗法(tˊ檢驗)。方差齊性檢驗計算F統計量查附表4(方差齊性F界值表)做出兩總體方差是否相等的推斷tˊ檢驗
計算均數標準誤平方計算兩樣本均數差數的標準誤計算tˊ值求tˊ顯著性界限的近似值2.5.2.7方差不齊的兩樣本均數差異的顯著性檢驗——t452.5.3
多均數差異的顯著性檢驗——F檢驗
在環境研究工作中,經常有兩個以上的均數需要同時進行比較,這時,若應用上述的t檢驗法,則必須對每兩個均數進行t檢驗,比較繁瑣。而應用F檢驗法(即方差分析法)可使顯著性檢驗大為簡化。 方差分析又稱變異數分析,其基本思想是把全部觀察值之間總變異,按設計和需要分為二個或多個組成部分進行分析。總變異的分類在單因素的完全隨機設計的實驗資料中,總變異可分為組內變異和組間變異。在配伍組設計的資料中,總變異可分為處理組間變異、配伍組間變異及誤差三部分。在2×2析因設計資料中,總變異可分為兩個因素的兩個組間變異、兩因素交互作用及誤差四部分。2.5.3
多均數差異的顯著性檢驗——F檢驗 462.5.3.1單因素多個樣本均數比較比較步驟檢驗假設計算校正數確定P值結果判斷2.5.3.1單因素多個樣本均數比較比較步驟472.5.3.2兩因素多個樣本均數比較比較步驟列計算表計算校正數(C)計算離均差平方和(SS)計算自由度計算均方(MS)計算F值確定P值并判斷結果2.5.3.2兩因素多個樣本均數比較比較步驟482.5.3.3多組均數間兩兩比較 資料經F檢驗后,各組均數間的差異為無顯著性,則不須作進一步的統計處理;如果各組均數間的差異有顯著意義,則須作進一步的分析,以檢驗兩兩均數間的差異哪些是有顯著性的。比較步驟檢驗假設計算q值求處理數(a)根據誤差的自由度及處理數(a)查附表6(q值表),得q的顯著界值。確定P值與判斷結果2.5.3.3多組均數間兩兩比較 資料經F檢驗后,各組492.5.4兩率差異的顯著性檢驗2.5.4.1率的抽樣誤差定義 樣本率與總體率間的差異情況是由于抽樣造成的,稱為率的抽樣誤差。公式 率的抽樣誤差可用率的標準誤來表示。2.5.4兩率差異的顯著性檢驗2.5.4.1率的抽502.5.4.2大樣本率與總體率差異的顯著性檢驗——u檢驗 通常,樣本率與總體率之間進行比較時,如樣本含量較大(一般大于50),可采用u檢驗。 再依據表作判斷。2.5.4.2大樣本率與總體率差異的顯著性檢驗——u檢驗512.5.4.3兩大樣本率的差異顯著性檢驗——u檢驗公式 檢驗兩個樣本率的差異是否顯著時,可用公式:2.5.4.3兩大樣本率的差異顯著性檢驗——u檢驗公式522.5.4.4兩大樣本率的差異顯著性檢驗——四格表檢驗檢驗范圍 檢驗(卡方檢驗)常用以檢驗兩個率或多個率之間的差別,兩組或多組資料內部構成之間的差別,理論分布數列與實際觀察分布數列之間的差別,兩個觀察數列之間的差別是否有顯著性等。公式 檢驗的基本公式:X2= 式中A實際數 T理論數
檢驗步驟:(1)檢驗假設(2)計算值(3)確定概率,做出判斷
2.5.4.4兩大樣本率的差異顯著性檢驗——四格表53四格表專用公式法 四格表專用公式是從基本公式推導出來的,故兩者計算的結果是相同的。四格表的形式:四格表專用公式:四格表專用公式法542.5.4.5n>40且有一個理論數小于5的兩率差異顯著性檢驗——四格表校正值檢驗
公式
= = 2.5.4.5n>40且有一個理論數小于5的兩率差異顯著552.5.4.6n<40且有一個理論數小于5的兩率差異顯著性檢驗——精確檢驗法
四格表中有實際值為零時,計算概率的公式為: P= 式中!階乘,規定0!=1。四格表中無實際值為零時 【例2.31】2.5.4.6n<40且有一個理論數小于5的兩率差異顯著562.5.5多率的差異顯著性檢驗——行×列的檢驗定義 當資料的組數或處理方法超過兩組(即行數或列數超過兩組)時,通稱為行×列表或稱R×C表,其檢驗方法,可用的基本公式法,也可采用行×列表專用公式法。公式 行×列表專用公式為:2.5.5多率的差異顯著性檢驗——行×列的檢驗定572.5.6配對計數資料的差異顯著性檢驗——檢驗通過配對的方法進行實驗,如每一對實驗對象分別給予不同的處理,或同一實驗對象,先后給予不同的處理,既可獲得計量資料,也可獲得計數資料,這類計數資料的率的差別顯著性檢驗,采用配對的檢驗法。公式 計算公式: = 當b+c<40時,則改用校正公式: =2.5.6配對計數資料的差異顯著性檢驗——檢驗582.6直線相關與直線回歸相關(correlation)
相關指兩事物或兩變量之間呈現某種相依變動關系。 相關有直線相關、曲線相關、多元線性相關,直線相關是最簡單的相關。回歸(regression)
回歸原指樣本統計量向總體參數靠攏或回歸的現象,現指利用方程描述變量變化的數量關系。 回歸有直線回歸、曲線擬合、多元線性回歸,直線回歸是最簡單的回歸。
2.6直線相關與直線回歸相關(correlation)592.6.1直線相關定義
如果相關散點圖顯示一個變量X由小到大變化,另一個變量Y亦相應地呈直線由小到大(或由大到小)變化,則這兩個變量間有直線關系;散點圖顯示的相關性質和密切程度,由直線相關系數描述。這種直線關系以及分析這種直線關系的理論和方法,統稱直線相關(linearcorrelation)。
2.6.1直線相關定義602.6.1.1相關散點圖與相關系數相關 以橫軸(X)代表汽車輛數,以縱軸(Y)代表NO2濃度,繪制相關散點圖,見下圖。
從圖中可見,隨著汽車輛數的增加,大氣中NO2的濃度也隨之增高,呈現從左下到右上的變化趨勢。我們稱這種“從左下到右上的變化趨勢”為正相關。
2.6.1.1相關散點圖與相關系數相關61事實上,除正相關外,相關散點圖的散點分布還有多種情形,見下圖。
事實上,除正相關外,相關散點圖的散點分布還有多種情形62相關系數定量地表示變量間的線性相關程度及相關方向。相關系數沒有單位,其值在-1至+1之間。正相關: 散點的Y值隨X值增加而上升,0<r≤1,如圖2.7(a);如果散點完全在一條直線上,則為完全正相關,r=1,如上圖(b)。負相關: 散點的Y值隨X值增加而減少,-l≤r<0,如上圖(c);如果散點完全在一條直線上,則為完全負相關,r=-1,如上圖(d)。零相關: 散點的X與Y的數值增減無一定規律,或Y值的變化不受X變化的影響,r=0,如上圖(e、f、g)。無線性相關: 散點的X與Y的數值增減服從非直線規律,r=0,如上圖(h)。相關系數632.6.1.2相關系數的計算計算公式
r==2.6.1.2相關系數的計算計算公式642.6.2相關系數的顯著性檢驗定義
由于抽樣誤差的影響,從相關系數為零的總體中隨機抽取的樣本的相關系數不一定為零,檢驗樣本相關系數不等于零的可能性,即稱為相關系數的差異顯著性檢驗。常用方法為檢驗。2.6.2相關系數的顯著性檢驗定義652.6.2.1計算法計算步驟(1)檢驗假設
X與Y沒有相關關系,即總體相關系數=0,樣本相關系數r是從中抽取,r與的差別是由于抽樣誤差而引起。
(2)計算
(3)確定P值與判斷結果2.6.2.1計算法計算步驟662.6.2.2查表法椐自由度n′=n-2查附表8(相關系數r界值表),據界值與計算相關系數的比較結果判定。2.6.2.2查表法椐自由度n′=n-2查附表8(相關672.6.3直線回歸2.6.3.1直線回歸概述 環境研究中,常需由一個變量(自變量,X)推算另一個變量(因變量,Y)的估計值,稱為回歸分析。 直線回歸(linearregression)分析的任務是,按照各點到直線的距離的平方和最小的要求,確定一條最接近于各點的直線(回歸直線),并建立這條直線的方程(回歸方程,regressionequation),以描述兩變量的變化規律或進行變量推算。2.6.3直線回歸2.6.3.1直線回歸概述682.6.3.2回歸方程的建立 【例2.37】解題步驟:計算基本數據:、、、、。相關系數r及其顯著性檢驗。按(2.51)式計算回歸系數。按(2.53)式計算截距a。按(2.54)建立回歸方程=a+bX。顯示回歸線。2.6.3.2回歸方程的建立 【例2.37】692.6.3.3 回歸方程的顯著性檢驗(1)單樣本回歸系數的顯著性檢驗 回歸系數的顯著性檢驗也用t檢驗。 ①檢驗假設 ②計算標準估計誤差 ③計算、值 ④確定P值及結果判斷2.6.3.3 回歸方程的顯著性檢驗(1)單樣本回歸系數70(2)兩樣本回歸系數的差異顯著性檢驗 若通過兩個樣本,獲得兩個回歸系數b1和b2,回歸系數的標準誤分別為Sb1和Sb2,需對兩樣本之間的差異進行顯著性檢驗。 ①檢驗假設 ②按公式計算t值 ③確定P值及結果判斷(2)兩樣本回歸系數的差異顯著性檢驗712.7環境數據統計與分析的計算機處理 2.7.1均數2.7.1.1算術均數直接計算法頻數-加權計算法2.7.1.2幾何均數直接計算法頻數表計算法
2.7環境數據統計與分析的計算機處理 2.7.1均數722.7.2中位數直接計算法頻數表計算法2.7.3變異數標準差變異系數2.7.2中位數732.7.4樣本特征推斷2.7.4.1樣本分布形式的判定輸入原始數據計算均值、標準差計算頻數并制作統計圖判定結果2.7.4樣本特征推斷742.7.4.2抽樣誤差輸入原始數據計算標注誤2.7.4.3總體均數的區間估計輸入原始數據計算可信區間2.7.4.4總體率的區間估計輸入原始數據計算可信區間2.7.4.2抽樣誤差752.7.5顯著性檢驗2.7.5.1樣本均數與總體均數的差異顯著性檢驗輸入原始數據計算標準誤、t值、自由度等參數判斷顯著性2.7.5.2兩樣本均數的差異顯著性檢驗輸入原始數據t檢驗判斷差異顯著性2.7.5顯著性檢驗2.7.5.1樣本均數與總體均數的762.7.5.3兩幾何級數的差異顯著性檢驗2.7.5.4配對資料的差異顯著性檢驗輸入原始數據,計算、計算差數的均數、標準差、標準誤、t值等判定結果2.7.5.5兩個大樣本均數的顯著性檢驗——u檢驗輸入原始數據計算u值判定結果2.7.5.3兩幾何級數的差異顯著性檢驗772.7.5.6方差不齊的兩樣本均數差異的顯著性檢驗--檢驗輸入原始數據方差齊性檢驗檢驗2.7.5.7單因素多個樣本均數比較輸入原始數據計算和、均值、平方和、校正數、1/n、和的平方計算F值查表并判定結果2.7.5.6方差不齊的兩樣本均數差異的顯著性檢驗--782.7.5.8兩因素多個樣本均數比較2.7.5.9大樣本率與總體率差異的顯著性檢驗――u檢驗2.7.5.10兩大樣本率的差異顯著性檢驗――u檢驗2.7.5.11兩大樣本率的差異顯著性檢驗――四格表檢驗2.7.5.12n>40且有一個理論數小于5的兩率差異顯著性檢驗――四格表校正值檢驗2.7.5.13n<40且有一個理論數小于5的兩率差異顯著性檢驗――精確檢驗法2.7.5.14多率的差異顯著性檢驗――行×列的檢驗2.7.5.15配對計數資料的差異顯著性檢驗――檢驗2.7.5.8兩因素多個樣本均數比較792.7.6直線相關與直線回歸2.7.6.1散點圖2.7.6.2相關系數計算2.7.6.3回歸方程的建立2.7.6.4回歸方程的顯著性檢驗2.7.6直線相關與直線回歸2.7.6.1散點圖802.8可疑值的取舍
定義 前述環境數據統計與分析的前提,是數據均為可信數據。事實上,在一組觀察值中出現少數過大或過小的極端值,使人懷疑發生了錯誤的情況時有發生,這種數值稱為可疑值。可疑值的判斷方法 常用的有Chauvenet法、Smirnov法和Grubbs法,它們的計算方法相同,僅界值不同。經模擬試驗,以Grubbs法效果較好。計算觀察值的均數、標準差、T值。查界值表作出判斷舍去可疑值2.8可疑值的取舍定義81演講完畢,謝謝觀看!演講完畢,謝謝觀看!82第二章環境數據
統計與分析第二章環境數據
統計與分析832環境數據統計與分析2.1數據統計與分析的基本范疇2.2常用的統計指標2.3環境樣本特征推斷2.4參數估計2.5顯著性檢驗2.6直線相關與直線回歸2.7環境數據統計與分析的計算機處理2.8可疑值的取舍2環境數據統計與分析2.1數據統計與分析的基本范疇842.1數據統計與分析的基本范疇2.1.1總體與樣本
統計學中,把性質相同的研究對象的所有觀測結果的集合稱為總體(population)。總體又分為無限總體和有限總體。 在實際工作中,常常是從被研究的總體中隨機抽取部分觀測結果進行研究。每個部分觀測結果的集合稱為樣本。 從總體中隨機抽取樣本用以推斷總體的方法稱為抽樣研究。
2.1數據統計與分析的基本范疇2.1.1總體與樣本852.1.2參數與統計量統計指標 統計學中,把根據規定的函數關系計算出的描述總體或樣本特征的函數值稱為統計指標(index)。參數 由總體資料計算出的統計指標稱為參數(parameter),用于描述總體特征。統計量 由樣本資料計算出的統計指標稱為統計量(statistic),用于描述樣本特征。2.1.2參數與統計量統計指標862.1.3變異與誤差變異(variation) 變異指觀測結果之間實際存在的差異。誤差(error) 誤差指觀測結果與真實值之差及統計量與參數之差。過失誤差(grosserror)——過失誤差可以避免;系統誤差(systematicerror)——系統誤差可以減少;隨機誤差(randomerror)——隨機誤差無法消除。2.1.3變異與誤差變異(variation)872.2常用的統計指標2.2.1平均數2.2.2變異數2.2.3相對數2.2常用的統計指標2.2.1平均數882.2.1平均數定義 平均數(average)是表示觀測值的平均水平的統計指標,常用的有算術平均數、幾何均數及中位數。2.2.1平均數定義892.2.1.1算術均數定義 算術均數(arithmeticmean),簡稱均數,常用、希臘字母μ表示,表示樣本均數,μ表示總體均數。均數適用于正態分布資料統計。計算方法直接計算法頻數-加權計算法2.2.1.1算術均數定義90直接計算法 當觀察值的個數不多時,將所有觀察值x1,x2,x3,…,xn直接相加,其和除以觀察值的個數n,即為均數。 計算公式: 式中, 算術平均數 x1,…,xn 各觀察值 ∑ 求和符號 ∑x 觀察值總和 n 觀察值的個數直接計算法91頻數-加權計算法
對一個隨機事件作重復觀察,其中某觀察值出現的次數稱頻數; 各觀察值對應的頻數稱為頻數分布;顯示各觀察值對應的頻數的表格稱為頻數分布表,簡稱頻數表。頻數-加權計算法92
頻數-加權計算法計算步驟
①計算全距 找出觀察值中的最大值、最小值,并計算全距(range),全距=最大值-最小值。 ②定組段數 一般取8~15個為宜,多取10個,組段數太多,計算較繁,組段數過少則誤差較大。 ③定組距(classinterval) 相鄰兩組段下限值之差為組距(classinterval)。各組段的組距可以相等,也可以不等。若擬定為相等組距,則組距=全距/組段數,為便于觀察值歸組,組距常取整數。頻數-加權計算法計算步驟93
④定組段(classrange) 即定各組數據的上下限,俗稱“封口”。通常,某組段的最小值為下限(lowerlimit),相鄰較大組段的下限即本組段的上限(upperlimit)。第一組段應包括最小值,最末組段應包括最大值。
⑤計數(fi) 劃分組段后,將原始數據以適當方式劃記計數(常用“正”字法)歸組。得頻數分布表。
⑥計算組中值(Classmid-value)(xi) 組中值= ⑦計算均數
將各組段的頻數與組中值之積相加求和,再除以總頻數即得均數。
第二章環境數據統計與分析課件942.2.1.2幾何均數定義
幾何均數(geometricmean,G),也叫倍數均數,當觀察值相差較大甚至成倍數關系時,如用算術均數表示其平均水平時受少數特大或特小值影響較大,則用幾何均數來表示其平均水平。計算步驟
先對觀察值取數值,計算對數值的均數后,再查反對數,即得幾何均數。計算方法直接計算法頻數表法2.2.1.2幾何均數定義95直接計算法直接計算法96頻數表法 當觀察值較多時,可先編頻數表,再按頻數表計算幾何均數。頻數表法972.2.1.3中位數定義
中位數(median,M,Md)指全部觀察值按大小順序排列,居于中間位置的數值。 偏態分布資料,一端或兩端有不確定數值分布的資料,分布情況不清的資料,適宜用中位數統計。計算方法直接計算法頻數表法2.2.1.3中位數定義98直接計算法
樣本含量n較少時,先將觀察值按大小順序排列,再進行計算。
直接計算法99頻數表法 中位數是一個特定的百分位數,在全部觀察值中有一半比它大,一半比它小。當例數較多時,先將觀察值編制頻數表,再按公式計算。
頻數表法1002.2.2變異數定義
變異數是表示觀察值變異水平的統計指標,常用指標有極差、方差、標準差和變異系數等。
2.2.2變異數定義1012.2.2.1極差定義
亦稱全距(rangc,R),即一組觀察值中最大值與最小值之差。R=Xmax-Xmin特點
全距反映了變異的范圍,極差大,變異度大;極差小,變異度小。缺點
用極差表示變異程度的大小簡單明了,但它僅考慮了觀察值的最大值和最小值,而沒有考慮其他數值,因此是不夠全面的。
2.2.2.1極差定義1022.2.2.2方差
要克服全距的缺點,必須全面考慮到每個觀察值。 首先考慮用每一個觀察值與均數之差的和即離均差總和Σ(x-)來描述。 再考慮用離均差平方和∑(x-)2來描述。 最終考慮用離均差平方和的均數即方差S2來描述。
2.2.2.2方差 要克服全距的缺點,必須全面考慮到每1032.2.2.3標準差定義
為了保持與原觀察值及其均數的單位一致,將方差開平方,即得標準差,以S表示。特點
標準差直接表示觀察值分布的離散程度,間接反映樣本的代表性。 在觀察單位數相同,均數相近條件下,標準差較大,表明觀察值的變異程度較大,即觀察值圍繞均數的分布較離散,因而樣本的代表性較差;反之,標準差較小,表明觀察值的變異程度較小,觀察值圍繞均數的分布較密集,樣本的代表性好。2.2.2.3標準差定義1042.2.2.4變異系數定義 對均數相差較大或性質不同的資料,不能直接用標準差比較變異程度的大小,要用變異系數作比較。特點
與標準差一樣,變異系數愈大,表明觀察值的變異程度愈大,變異系數愈小,表明變異程度愈小。
2.2.2.4變異系數定義1052.2.3相對數定義
環境研究直接觀測到的數據稱為絕對數,絕對數雖然能反映調查中所發現的某種現象的絕對水平,但作深入分析時,僅看絕對數是不夠的,必須考慮使用相對數(relativenumber),即兩個有聯系的指標之比。 常用相對數有率、比等。
2.2.3相對數定義1062.2.3.1率定義
率(rate)是某一現象發生的頻度(頻繁程度)或強度,通常指在一定條件下某種現象實際發生的次數與可能發生該現象的總次數之比。率=
率的比例基數可用100、1000、10,000、100,000等分別稱為百分率,千分率,萬分率,或十萬分率。環境監測常用的率有:
檢出率= 回收率= 最高濃度出現率= 殘留率= 超標率=
2.2.3.1率定義1072.2.3.2構成比定義
構成比(constitutionratio)是事物內部某種構成部分對總體之比。說明部分在總體中所占的比重,是一種用來表示事物內部各構成情況的指標。 構成比=
2.2.3.2構成比定義1082.2.3.3相對比定義
相對比(relativeratio)指兩個有關聯的同類指標的比。以倍數或百分數(%)來表示,其計算式: 相對比=常用的相對比有倍數、指數、系數等。
2.2.3.3相對比定義109倍數 在大氣監測中,經常用測定值與國家衛生標準值的比較來評價車間、工廠或大氣的污染程度。指數(index) 環境保護研究中,指數是環境污染物的實測濃度對該污染物在環境中的容許濃度的比值,是環境質量評價的常用手段。
I=
I:環境質量指數 C:污染物實測平均濃度 S:污染物容許標準。系數 如排毒系數,環境污染物的排放濃度對該污染物的排放標準的比值,用于表示各種污染物和污染源對環境的毒害的潛在能力。倍數1102.3環境樣本特征推斷環境樣本特征 主要指環境樣本的分布形式和環境樣本的正常值范圍等,可以利用獲得的統計量進行統計處理,完成上述推斷工作。2.3環境樣本特征推斷環境樣本特征1112.3.1樣本特征推斷的理論基礎--正態分布定義 正態分布(normaldistribution)又稱高斯分布(GaussianDistribution),是以均數為中心的對稱鐘型分布。 正態曲線是一條高峰位于中央,兩側完全對稱并逐漸下降但永遠不與橫軸相交的鐘形曲線 正態曲線由和兩個參數決定,為總體均數,為總體標準差。決定正態曲線的位置,決定正態曲線形狀。2.3.1樣本特征推斷的理論基礎--正態分布定義1122.3.2樣本特征推斷樣本分布形式的判定確定正常值范圍確定樣本所代表總體的理論頻數分布2.3.2樣本特征推斷樣本分布形式的判定1132.4參數估計定義 探知研究對象的總體特征是環境研究的主要目標,由于總體龐大的原因,直接計算參數是極其困難的,因此,往往用樣本統計量來估計總體參數,這個過程稱為參數估計(estimationofparameter)。 本節主要討論總體均數估計的基本問題。總體均數估計分為點估計和區間估計。 點估計(pointestimation)是根據一個樣本求出總體參數的具體數值,常用根據極大似然法原理導出的公式計算極大似然估計量。 由于存在變異和抽樣的隨機性,用不同的樣本推斷總體時,可能得到不同的參數估計值。因此更穩妥的辦法是采用區間估計。2.4參數估計定義1142.4.1總體均數區間估計的理論基礎――t分布
2.4.1.1抽樣誤差定義 對樣本的統計結果與總體的“真實”之間必然存在差異,這種由于抽樣而引起的樣本與總體之間的差異稱為抽樣誤差。標準誤差
樣本均數的標準差稱為標準誤差,。計算公式為:
在實際工作中,總體標準差常屬未知,只能用樣本標準差S代替作為最佳的無偏估計,于是標準誤的計算公式變為:2.4.1總體均數區間估計的理論基礎――t分布2.4.1152.4.1.2描述樣本均數的分布――t分布
從一個均數為,標準差為的正態總體中,隨機抽取含量為n的樣本,可計算樣本均數,樣本標準誤,則將樣本均數與總體均數的離差以樣本標準誤為單位,得正態(離)差t=,若干樣本的t值就構成統計上著名的t分布。 實際工作中總體標準差往往是不知道的,只能用樣本標準差S來代替,于是得 t==
2.4.1.2描述樣本均數的分布――t分布 從一個均數1162.4.2總體均數的區間估計區間估計(intervalestimation) 按預先給定的概率,由一個樣本均數及其標準誤求出總體均數數值范圍的過程。“預先給定的概率” 也稱為可信度、可信水平、可信系數,符號為1-α,常取0.99或0.95。“總體均數數值范圍” 也稱為可信區間,符號為CI。其含義是:由一個樣本均數及其標準誤求出的被估計參數值有0.99或0.95的可能在此數值范圍內,或由若干個樣本均數及其標準誤求出的若干個被估計參數值中,有99%或95%的個數可能在此數值范圍內。
2.4.2總體均數的區間估計區間估計(interval1172.4.3總體率的區間估計 可仿照總體均數的可信區間估計的方法來估計總體率的所在范圍,即求總體率的可信區間,我們介紹兩種方法。正態近似法
當n足夠大,且p和(1-p)不接近零,有np和n(1-p)均大于5時,總體率的可信區間為: 式中uα為可信度1-α時的標準正態離差,由u界值得知,如99%可信區間時,α=0.01,uα=2.58,95%可信區間時,α=0.05,uα=1.96。
查表法
當n≤1000,p≥l%時,可查附表3(百分率的可信限表),得到總體率的可信區間。
2.4.3總體率的區間估計 可仿照總體均數的可信區間估1182.5顯著性檢驗兩均數差異顯著性檢驗樣本均數與總體均數的差異顯著性檢驗兩樣本均數的差異顯著性檢驗兩個幾何級數樣本均數的差異顯著性檢驗配對資料的差異顯著性檢驗兩個大樣本均數的顯著性檢驗——u檢驗方差不齊的兩樣本均數差異的顯著性檢驗——tˊ檢驗2.5顯著性檢驗兩均數差異顯著性檢驗1192.5.1顯著性檢驗的含義與一般步驟含義 在回答樣本與總體是否有本質差異或差異是否有顯著時,必須考慮:樣本與總體差異無顯著性和樣本與總體差異有顯著性2種情況。究竟屬于那種情況,需通過差異顯著性檢驗來回答。顯著性檢驗的步驟建立“檢驗假設”確定檢驗水準選擇檢驗方法和計算統計量確定概率做出推斷結論2.5.1顯著性檢驗的含義與一般步驟含義1202.5.2兩均數差異顯著性檢驗2.5.2.1兩均數差異顯著性檢驗的基本思路 t檢驗是檢驗兩均數間差異顯著性的基本方法。 按式(2.20)計算統計量t值后,與根據相應自由度查附表2(t值表)所得的t界值進行比較,判斷均數間差異的顯著性。 ∣t∣﹤t0.05(v)P﹥0.05差異無顯著性 若t0.05(v)≤∣t∣﹤t0.01(v)則0.05≥P﹥0.01即差異有顯著性 ∣t∣≥t0.01(v)P≤0.01差異有極顯著性 當v(自由度)﹥50時,可直接采用正態分布臨界值1.96或2.58來判斷P大于還是小于0.05或0.01。2.5.2兩均數差異顯著性檢驗2.5.2.1兩均數1212.5.2.2樣本均數與總體均數的差異顯著性檢驗【例2.17】解題步驟:建立檢驗假設計算t值確定p值結果判斷2.5.2.2樣本均數與總體均數的差異顯著性檢驗【例1222.5.2.3兩樣本均數的差異顯著性檢驗
兩樣本均數比較是最常見的統計比較研究,又稱成組比較,其目的是推斷兩樣本分別代表的總體均數μ1與μ2是否相等。
采用下面的公式來檢驗兩均數的差異是否有顯著性。2.5.2.3兩樣本均數的差異顯著性檢驗 兩樣本均數1232.5.2.4兩個幾何級數樣本均數的差異顯著性檢驗 檢驗兩個幾何均數的差別是否有顯著性,所采用的方法,仍然是t檢驗法,只是將所有數值全部轉換為對數值進行計算。2.5.2.4兩個幾何級數樣本均數的差異顯著性檢驗 1242.5.2.5配對資料的差異顯著性檢驗 在實驗研究中,常采用配對比較的方法。配對研究的目的是比較兩種處理方法或實驗前后的結果有無差異。 配對資料的實驗設計有兩種:①同體配對,實驗對象自身對比;②非同體配對。
2.5.2.5配對資料的差異顯著性檢驗 在實驗研究中1252.5.2.6兩個大樣本均數的顯著性檢驗—u檢驗 當兩個樣本的觀察單位數較多時(每組n﹥50),資料分布基本近似于正態分布,可以用u檢驗。 計算出u值后,直接根據表2.13u檢驗的檢驗水準表作出結果判斷。2.5.2.6兩個大樣本均數的顯著性檢驗—u檢驗 1262.5.2.7方差不齊的兩樣本均數差異的顯著性檢驗——tˊ檢驗 使用t檢驗的前提條件是兩個總體的方差相等,。 事實上,即使兩個總體方差相等,樣本方差也會因為抽樣而出現波動,因此必需對兩組樣本進行方差齊性檢驗。如果方差齊性檢驗顯示方差不齊時,則不能直接采用t檢驗,需要用校正t檢驗法(tˊ檢驗)。方差齊性檢驗計算F統計量查附表4(方差齊性F界值表)做出兩總體方差是否相等的推斷tˊ檢驗
計算均數標準誤平方計算兩樣本均數差數的標準誤計算tˊ值求tˊ顯著性界限的近似值2.5.2.7方差不齊的兩樣本均數差異的顯著性檢驗——t1272.5.3
多均數差異的顯著性檢驗——F檢驗
在環境研究工作中,經常有兩個以上的均數需要同時進行比較,這時,若應用上述的t檢驗法,則必須對每兩個均數進行t檢驗,比較繁瑣。而應用F檢驗法(即方差分析法)可使顯著性檢驗大為簡化。 方差分析又稱變異數分析,其基本思想是把全部觀察值之間總變異,按設計和需要分為二個或多個組成部分進行分析。總變異的分類在單因素的完全隨機設計的實驗資料中,總變異可分為組內變異和組間變異。在配伍組設計的資料中,總變異可分為處理組間變異、配伍組間變異及誤差三部分。在2×2析因設計資料中,總變異可分為兩個因素的兩個組間變異、兩因素交互作用及誤差四部分。2.5.3
多均數差異的顯著性檢驗——F檢驗 1282.5.3.1單因素多個樣本均數比較比較步驟檢驗假設計算校正數確定P值結果判斷2.5.3.1單因素多個樣本均數比較比較步驟1292.5.3.2兩因素多個樣本均數比較比較步驟列計算表計算校正數(C)計算離均差平方和(SS)計算自由度計算均方(MS)計算F值確定P值并判斷結果2.5.3.2兩因素多個樣本均數比較比較步驟1302.5.3.3多組均數間兩兩比較 資料經F檢驗后,各組均數間的差異為無顯著性,則不須作進一步的統計處理;如果各組均數間的差異有顯著意義,則須作進一步的分析,以檢驗兩兩均數間的差異哪些是有顯著性的。比較步驟檢驗假設計算q值求處理數(a)根據誤差的自由度及處理數(a)查附表6(q值表),得q的顯著界值。確定P值與判斷結果2.5.3.3多組均數間兩兩比較 資料經F檢驗后,各組1312.5.4兩率差異的顯著性檢驗2.5.4.1率的抽樣誤差定義 樣本率與總體率間的差異情況是由于抽樣造成的,稱為率的抽樣誤差。公式 率的抽樣誤差可用率的標準誤來表示。2.5.4兩率差異的顯著性檢驗2.5.4.1率的抽1322.5.4.2大樣本率與總體率差異的顯著性檢驗——u檢驗 通常,樣本率與總體率之間進行比較時,如樣本含量較大(一般大于50),可采用u檢驗。 再依據表作判斷。2.5.4.2大樣本率與總體率差異的顯著性檢驗——u檢驗1332.5.4.3兩大樣本率的差異顯著性檢驗——u檢驗公式 檢驗兩個樣本率的差異是否顯著時,可用公式:2.5.4.3兩大樣本率的差異顯著性檢驗——u檢驗公式1342.5.4.4兩大樣本率的差異顯著性檢驗——四格表檢驗檢驗范圍 檢驗(卡方檢驗)常用以檢驗兩個率或多個率之間的差別,兩組或多組資料內部構成之間的差別,理論分布數列與實際觀察分布數列之間的差別,兩個觀察數列之間的差別是否有顯著性等。公式 檢驗的基本公式:X2= 式中A實際數 T理論數
檢驗步驟:(1)檢驗假設(2)計算值(3)確定概率,做出判斷
2.5.4.4兩大樣本率的差異顯著性檢驗——四格表135四格表專用公式法 四格表專用公式是從基本公式推導出來的,故兩者計算的結果是相同的。四格表的形式:四格表專用公式:四格表專用公式法1362.5.4.5n>40且有一個理論數小于5的兩率差異顯著性檢驗——四格表校正值檢驗
公式
= = 2.5.4.5n>40且有一個理論數小于5的兩率差異顯著1372.5.4.6n<40且有一個理論數小于5的兩率差異顯著性檢驗——精確檢驗法
四格表中有實際值為零時,計算概率的公式為: P= 式中!階乘,規定0!=1。四格表中無實際值為零時 【例2.31】2.5.4.6n<40且有一個理論數小于5的兩率差異顯著1382.5.5多率的差異顯著性檢驗——行×列的檢驗定義 當資料的組數或處理方法超過兩組(即行數或列數超過兩組)時,通稱為行×列表或稱R×C表,其檢驗方法,可用的基本公式法,也可采用行×列表專用公式法。公式 行×列表專用公式為:2.5.5多率的差異顯著性檢驗——行×列的檢驗定1392.5.6配對計數資料的差異顯著性檢驗——檢驗通過配對的方法進行實驗,如每一對實驗對象分別給予不同的處理,或同一實驗對象,先后給予不同的處理,既可獲得計量資料,也可獲得計數資料,這類計數資料的率的差別顯著性檢驗,采用配對的檢驗法。公式 計算公式: = 當b+c<40時,則改用校正公式: =2.5.6配對計數資料的差異顯著性檢驗——檢驗1402.6直線相關與直線回歸相關(correlation)
相關指兩事物或兩變量之間呈現某種相依變動關系。 相關有直線相關、曲線相關、多元線性相關,直線相關是最簡單的相關。回歸(regression)
回歸原指樣本統計量向總體參數靠攏或回歸的現象,現指利用方程描述變量變化的數量關系。 回歸有直線回歸、曲線擬合、多元線性回歸,直線回歸是最簡單的回歸。
2.6直線相關與直線回歸相關(correlation)1412.6.1直線相關定義
如果相關散點圖顯示一個變量X由小到大變化,另一個變量Y亦相應地呈直線由小到大(或由大到小)變化,則這兩個變量間有直線關系;散點圖顯示的相關性質和密切程度,由直線相關系數描述。這種直線關系以及分析這種直線關系的理論和方法,統稱直線相關(linearcorrelation)。
2.6.1直線相關定義1422.6.1.1相關散點圖與相關系數相關 以橫軸(X)代表汽車輛數,以縱軸(Y)代表NO2濃度,繪制相關散點圖,見下圖。
從圖中可見,隨著汽車輛數的增加,大氣中NO2的濃度也隨之增高,呈現從左下到右上的變化趨勢。我們稱這種“從左下到右上的變化趨勢”為正相關。
2.6.1.1相關散點圖與相關系數相關143事實上,除正相關外,相關散點圖的散點分布還有多種情形,見下圖。
事實上,除正相關外,相關散點圖的散點分布還有多種情形144相關系數定量地表示變量間的線性相關程度及相關方向。相關系數沒有單位,其值在-1至+1之間。正相關: 散點的Y值隨X值增加而上升,0<r≤1,如圖2.7(a);如果散點完全在一條直線上,則為完全正相關,r=1,如上圖(b)。負相關: 散點的Y值隨X值增加而減少,-l≤r<0,如上圖(c);如果散點完全在一條直線上,則為完全負相關,r=-1,如上圖(d)。零相關: 散點的X與Y的數值增減無一定規律,或Y值的變化不受X變化的影響,r=0,如上圖(e、f、g)。無線性相關: 散點的X與Y的數值增減服從非直線規律,r=0,如上圖(h)。相關系數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025企業辦公場地的租賃合同
- 2025資金信托合同模板
- 輔導班合同協議書樣本
- 禮盒供貨合同協議書怎么寫
- 情感咨詢服務合同協議書
- 簽租房合同協議書流程
- 鑄鐵加工合同協議書模板
- 2025物流倉儲合同標準格式模板
- 入股做生意合同協議書
- 出租公司解聘合同協議書
- 《空中領航》全套教學課件
- 人教版五年級下冊數學操作題期末專項練習(及解析)
- 中藥熏洗法操作評分標準與流程
- 學習解讀《執業獸醫和鄉村獸醫管理辦法》課件
- 室內裝飾不銹鋼技術交底
- 1.3.1動量守恒定律課件(共13張PPT)
- 白黑白裝飾畫欣賞黑白裝飾畫的特點黑白裝飾畫的表現形式黑白裝飾 bb
- TCECS 850-2021 住宅廚房空氣污染控制通風設計標準
- 調度指揮與統計分析課程教學設計
- GB∕T 25119-2021 軌道交通 機車車輛電子裝置
- 支氣管分段亞段及及支氣管鏡檢查
評論
0/150
提交評論