




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第七章數值預測問題 n相關分析相關分析和和回歸分析回歸分析是社會經濟問題研究中是社會經濟問題研究中最常用也是最重要的兩種統計方法。它們主最常用也是最重要的兩種統計方法。它們主要被用于回答一些定義明確的度量單位的要被用于回答一些定義明確的度量單位的數數值變量之間的關系值變量之間的關系問題。問題。n相關分析:是描述兩個相關分析:是描述兩個數值變量間的關系強數值變量間的關系強度度問題。問題。n回歸分析:是描述回歸分析:是描述一個或多個自變量的變化一個或多個自變量的變化如何引起因變量變化如何引起因變量變化的一種統計分析方法。的一種統計分析方法。n相關分析和回歸分析在處理數值變量關系時相關分析和回歸分析
2、在處理數值變量關系時可以互為補充、相輔相成。可以互為補充、相輔相成。第一節 相關分析n一、變量間關系一、變量間關系n變量之間的關系可分為兩種類型:變量之間的關系可分為兩種類型:函數關函數關系系和和相關關系相關關系。n函數關系函數關系是指現象之間存在是指現象之間存在一一對應一一對應的的確確定性定性的數量依存關系。的數量依存關系。n相關關系相關關系,也稱統計相關,是指現象之間,也稱統計相關,是指現象之間存在的存在的非確定性非確定性的數量依存關系。但這種的數量依存關系。但這種數量變化關系并不是嚴格數量變化關系并不是嚴格一一對應一一對應的。的。(收入與儲蓄;父母與子女身高)(收入與儲蓄;父母與子女身高
3、)n二、相關關系的種類二、相關關系的種類按相關關系涉及的變量(或因素)的多少按相關關系涉及的變量(或因素)的多少 按變量之間相互關系的表現形式按變量之間相互關系的表現形式按變量之間的相互關系的方法或性質不同按變量之間的相互關系的方法或性質不同 按變量之間的相關程度不同按變量之間的相關程度不同 單相關復相關線性相關線性相關非線性相關正相關正相關負相關負相關完全相關完全相關不相關不相關不完全相關不完全相關n三、相關分析主要解決的問題三、相關分析主要解決的問題變量之間是否存在關系?變量之間是否存在關系?如果存在關系,它們之間是什么樣的關系?如果存在關系,它們之間是什么樣的關系?變量之間的關系強度如何
4、?變量之間的關系強度如何?樣本所反映的變量之間的關系能否代表總體變樣本所反映的變量之間的關系能否代表總體變量之間的關系?量之間的關系?進行相關分析時:進行相關分析時:繪制散點圖判斷變量之間的關系形態;繪制散點圖判斷變量之間的關系形態;計算相關系數來確定相關關系的密切程度(關計算相關系數來確定相關關系的密切程度(關系強度);系強度);對相關系數進行顯著性檢驗,以判斷樣本所反對相關系數進行顯著性檢驗,以判斷樣本所反映的關系能否用來代表兩個變量總體上的關系映的關系能否用來代表兩個變量總體上的關系。n相關系數:相關系數: 通過相關圖表可以了解現象通過相關圖表可以了解現象之間是否具有相關關系,但要想之間
5、是否具有相關關系,但要想更具體地了解現象之間的相關密更具體地了解現象之間的相關密切程度,必須進一步測定相關系切程度,必須進一步測定相關系數。相關系數就是描述兩個變量數。相關系數就是描述兩個變量之間線性相關密切程度和相關方之間線性相關密切程度和相關方向的統計分析指標。向的統計分析指標。n相關關系的顯著性檢驗相關關系的顯著性檢驗 一般,總體相關系數一般,總體相關系數 是未是未知的,通常是根據樣本相關系數知的,通常是根據樣本相關系數r作為近似值的。作為近似值的。 能否根據樣本相關系數說明能否根據樣本相關系數說明總體的相關程度,就需要考察樣總體的相關程度,就需要考察樣本相關系數的可靠性,也就是進本相關
6、系數的可靠性,也就是進行行顯著性檢驗顯著性檢驗。第二節 一元線性回歸 在社會經濟現象中,各種經濟變量在社會經濟現象中,各種經濟變量相互聯系,相互制約。通過相關分析,相互聯系,相互制約。通過相關分析,可以分析現象之間相關關系的可以分析現象之間相關關系的方向方向和和相相關的密切程度關的密切程度。但相關分析。但相關分析不能不能判斷現判斷現象之間象之間具體的數量變動具體的數量變動依存關系,也依存關系,也不不能能根據根據相關系數相關系數來來估計或預測因變量估計或預測因變量y可能發生的數值可能發生的數值。因此,為了。因此,為了探求探求經濟經濟變量變量之間的之間的具體數量變動具體數量變動關系,一般在關系,一
7、般在相關分析的相關分析的基礎基礎上再進行上再進行回歸分析回歸分析。 回歸分析就是對具有相關關系的回歸分析就是對具有相關關系的兩個或兩個以上變量之間數量變化兩個或兩個以上變量之間數量變化的一般關系進行測定,確定因變量的一般關系進行測定,確定因變量和自變量之間數量變動關系的數學和自變量之間數量變動關系的數學表達式,以便對因變量進行估計或表達式,以便對因變量進行估計或預測的統計分析方法。預測的統計分析方法。 回歸分析是在回歸分析是在相關分析的基礎相關分析的基礎上上,進一步研究現象之間的,進一步研究現象之間的數量變數量變化化規律規律。n回歸分析的主要內容:回歸分析的主要內容:(1)根據研究目的和現象之
8、間的內在聯系,根據研究目的和現象之間的內在聯系,確定自變量和因變量確定自變量和因變量。現象之間還存在著因。現象之間還存在著因果關系。作為果關系。作為原因的變量為自變量原因的變量為自變量,作為,作為結結果的變量為因變量果的變量為因變量。回歸分析時,從理論出。回歸分析時,從理論出發進行定性分析,確定變量間的因果關系,發進行定性分析,確定變量間的因果關系,從而確定哪個為自變量,哪個為因變量。從而確定哪個為自變量,哪個為因變量。 (2)確定回歸分析模型的類型及數學表達式確定回歸分析模型的類型及數學表達式。根據現象之間的內在影響機制或通過對具體根據現象之間的內在影響機制或通過對具體變量數據描點分析,找出
9、最適合的回歸分析變量數據描點分析,找出最適合的回歸分析模型,再通過計算求出模型的待估參數,得模型,再通過計算求出模型的待估參數,得到回歸方程。到回歸方程。 估計方法一般是最小二乘法估計方法一般是最小二乘法。(3)對回歸分析模型進行評價與診斷。對回歸分析模型進行評價與診斷。得到得到具體的回歸方程以后,要對其進行統計檢驗。具體的回歸方程以后,要對其進行統計檢驗。 如對回歸方程計算一些檢驗統計量,如如對回歸方程計算一些檢驗統計量,如t值、值、F值、估計標準誤、判定系數等,來值、估計標準誤、判定系數等,來對回歸方對回歸方程的代表性及及擬合程度進行評價程的代表性及及擬合程度進行評價。又如,。又如,要檢驗
10、判斷回歸模型基本假設是否合理、滿要檢驗判斷回歸模型基本假設是否合理、滿足。足。(4)根據給定的自變量數值確定因變量的數根據給定的自變量數值確定因變量的數值。值。回歸方程可以用于統計估計或預測,即回歸方程可以用于統計估計或預測,即可根據給定的自變量數值估計因變量的數值可根據給定的自變量數值估計因變量的數值或置信區間。以及利用回歸模型進行回歸控或置信區間。以及利用回歸模型進行回歸控制。制。一、一元線性回歸模型一、一元線性回歸模型二、參數估計二、參數估計n在數學分析中,在數學分析中, 0 、 1為回歸參數或為回歸參數或待定系數,待定系數, 0 、 1為相應的估計值。為相應的估計值。n擬合回歸直線的主
11、要任務是估計待定擬合回歸直線的主要任務是估計待定參數參數 0 、 1的值,常用的方法就是最的值,常用的方法就是最小二乘法,用這種方法求出的回歸直小二乘法,用這種方法求出的回歸直線是原始數據的線是原始數據的“最佳最佳”擬合直線。擬合直線。最小二乘法的原理是使實際值最小二乘法的原理是使實際值y與估計與估計值的離差平方和最小。值的離差平方和最小。三、回歸直線的擬合優度三、回歸直線的擬合優度1、判定系數、判定系數 回歸直線在一定程度上描述了變量回歸直線在一定程度上描述了變量x與與y之間的之間的數量關系,根據這一方程,可根據自變量數量關系,根據這一方程,可根據自變量x的取值的取值來估計或預測因變量來估計
12、或預測因變量y的取值。的取值。但估計或預測的精但估計或預測的精度如何將取決于回歸直線對觀測數據的擬合程度度如何將取決于回歸直線對觀測數據的擬合程度。如果各觀測數據的散點都落在這一直線上,那么這如果各觀測數據的散點都落在這一直線上,那么這條直線就是對數據的完全擬合,直線充分代表了各條直線就是對數據的完全擬合,直線充分代表了各個點,此時用個點,此時用x來估計來估計y是沒有誤差的。是沒有誤差的。各個觀察點各個觀察點越是緊密圍繞著直線,說明直線對觀測數據的擬合越是緊密圍繞著直線,說明直線對觀測數據的擬合程度越好,反之則越差。程度越好,反之則越差。 回歸直線與各觀測點的接近程度稱為回歸直線回歸直線與各觀
13、測點的接近程度稱為回歸直線對數據的擬合優度。為說明直線的擬合優度,則需對數據的擬合優度。為說明直線的擬合優度,則需要計算判定系數。要計算判定系數。2、估計標準誤差、估計標準誤差 判定系數可用于度量回歸直線的擬判定系數可用于度量回歸直線的擬合程度,相關系數也可以起到類似的作合程度,相關系數也可以起到類似的作用。用。標準誤差反映了用估計的回歸方程標準誤差反映了用估計的回歸方程預測因變量預測因變量y時預測誤差的大小時預測誤差的大小。若各。若各觀測點越靠近直線,估計標準誤差越小,觀測點越靠近直線,估計標準誤差越小,回歸直線對各觀測點的代表性就越好,回歸直線對各觀測點的代表性就越好,根據估計的回歸方程進
14、行預測也就越準根據估計的回歸方程進行預測也就越準確。從另一個角度說明了回歸直線的擬確。從另一個角度說明了回歸直線的擬合優度。合優度。四、回歸方程的顯著性檢驗四、回歸方程的顯著性檢驗 回歸分析的主要目的是根據所建立的估回歸分析的主要目的是根據所建立的估計方程用自變量計方程用自變量x來估計或預測因變量來估計或預測因變量y的取的取值。值。 在建立了估計方程后,還不能馬上進行估在建立了估計方程后,還不能馬上進行估計或預測,因為該估計方程是根據樣本數據計或預測,因為該估計方程是根據樣本數據得出的,它是否真實地反映了變量得出的,它是否真實地反映了變量x和和y之間之間的關系,則需要通過檢驗后才能證實。的關系
15、,則需要通過檢驗后才能證實。 回歸分析中的顯著性檢驗主要包括:回歸分析中的顯著性檢驗主要包括: 線性關系的檢驗;線性關系的檢驗; 回歸系數的檢驗。回歸系數的檢驗。五、對因變量進行估計和預測五、對因變量進行估計和預測 回歸分析的主要目的是根回歸分析的主要目的是根據所建立的估計的回歸方程進據所建立的估計的回歸方程進行預測。行預測。 預測是指通過自變量預測是指通過自變量x的的取值來預測因變量取值來預測因變量y的取值。的取值。六、殘差分析六、殘差分析七、用殘差檢測異常值七、用殘差檢測異常值第三節 多元線性回歸 在復雜的經濟現象中,在復雜的經濟現象中,對因變量產生影響的自對因變量產生影響的自變量往往不止
16、一個,而是有多個變量往往不止一個,而是有多個。因此僅僅以一個。因此僅僅以一個自變量來解釋因變量往往是不全面的,需要建立一自變量來解釋因變量往往是不全面的,需要建立一個因變量與多個自變量的聯系模型來進行分析,才個因變量與多個自變量的聯系模型來進行分析,才能獲得較全面、準確的分析結果。能獲得較全面、準確的分析結果。 研究在線性相關條件下兩個或兩個以上自變量研究在線性相關條件下兩個或兩個以上自變量對一個因變量的數量變動關系,稱為多元線性回歸對一個因變量的數量變動關系,稱為多元線性回歸,表現這個數量關系的數學公式,稱為多元線性回歸表現這個數量關系的數學公式,稱為多元線性回歸模型。模型。 多元線性回歸分
17、析是對一元線性回歸分析的拓多元線性回歸分析是對一元線性回歸分析的拓展,其步驟、方法和一元線性回歸分析基本上相類展,其步驟、方法和一元線性回歸分析基本上相類似,只是在計算上相對比較復雜些。似,只是在計算上相對比較復雜些。 n現實問題:現實問題:學生打分的客觀性學生打分的客觀性 近年來,高校學生作為教學主體參與教近年來,高校學生作為教學主體參與教師的教學評價已成為我國高等學校廣泛采用師的教學評價已成為我國高等學校廣泛采用的一種教學評價方法,很多高校將學生評教的一種教學評價方法,很多高校將學生評教結果與教師的職稱聘任、晉級評定、年終考結果與教師的職稱聘任、晉級評定、年終考核掛鉤。核掛鉤。 某學院為一
18、所女子普通高等學校,該校某學院為一所女子普通高等學校,該校制定了相應的本科課堂教學質量評估辦法。制定了相應的本科課堂教學質量評估辦法。規定課堂教學質量評估包括學生評估、領導規定課堂教學質量評估包括學生評估、領導評估、同行評估和教師自評這四個方面的綜評估、同行評估和教師自評這四個方面的綜合成績為教師課堂教學質量評估成績,其中,合成績為教師課堂教學質量評估成績,其中,學生評估在總評結果中所占權重為學生評估在總評結果中所占權重為60%。 從道理上講,學生的確是應該參與從道理上講,學生的確是應該參與評教,但是學生評估在總評結果中所占評教,但是學生評估在總評結果中所占權重過高,則可能影響評估結果的公正權
19、重過高,則可能影響評估結果的公正性。這是因為,對學生評教的客觀性一性。這是因為,對學生評教的客觀性一直存在很多爭論,學生評教的結果可能直存在很多爭論,學生評教的結果可能會受很多與教學不相關的因素影響。比會受很多與教學不相關的因素影響。比如學生對本門課程的喜好程度、評分時如學生對本門課程的喜好程度、評分時的心態以及評分在考試前還是考試后進的心態以及評分在考試前還是考試后進行等等,因此,有必要對評教過程中學行等等,因此,有必要對評教過程中學生打分的客觀性進行定量分析。生打分的客觀性進行定量分析。n定量分析:定量分析: 影響學生打分的因素很多,這影響學生打分的因素很多,這里選擇一個易于量化的因素,即
20、學里選擇一個易于量化的因素,即學生本門課程的學習成績入手進行定生本門課程的學習成績入手進行定量分析,看看學生打分是否與學生量分析,看看學生打分是否與學生本門課程的學習成績高度相關。本門課程的學習成績高度相關。 為此,研究者調查了某班為此,研究者調查了某班28名名學生給某門課程的教師打分和這些學生給某門課程的教師打分和這些學生本門課程的考試成績。學生本門課程的考試成績。 在在Excel中,選擇中,選擇“插入插入”選項,選項,選擇選擇“圖表圖表”,選擇,選擇“XY散點圖散點圖”。n上圖中,橫坐標表示學生成績,縱上圖中,橫坐標表示學生成績,縱坐標表示學生打分。圖中的數據點坐標表示學生打分。圖中的數據
21、點呈現從左下方到右上方的分布局勢,呈現從左下方到右上方的分布局勢,表明:學習成績較好的同學,對老表明:學習成績較好的同學,對老師的評分也會較高。這兩者之間存師的評分也會較高。這兩者之間存在一定的正相關性。在一定的正相關性。n在在Excel中,調用數據分析中的中,調用數據分析中的“相關系數相關系數”功能來計算學生成績功能來計算學生成績與學生打分之間的(樣本)相關系與學生打分之間的(樣本)相關系數:數:n在在“工具工具”中選擇中選擇“數據分析數據分析”選項,再選擇選項,再選擇“相關系數相關系數”工具。工具。n從上圖,即學生成績與學生打分之間的從上圖,即學生成績與學生打分之間的(樣本)相關系數為(樣
22、本)相關系數為0.857。n完全線性相關如學生成績與其自身完全線性相關如學生成績與其自身的相關系數為的相關系數為1,而,而0.857這樣一個這樣一個相關系數則表明學生成績與學生打相關系數則表明學生成績與學生打分之間是高度相關的。分之間是高度相關的。n 當然,從假設檢驗的角度出發,當然,從假設檢驗的角度出發,我們需要在顯著水平我們需要在顯著水平0.05上拒絕學上拒絕學生成績與學生打分之間的(總體)生成績與學生打分之間的(總體)相關系數為相關系數為0的假設。的假設。n借助一元線性回歸分析來完成上述借助一元線性回歸分析來完成上述檢驗。檢驗。n如果記學生打分為如果記學生打分為Y,學生成績為,學生成績為
23、X,上述的模型就表示學生打分對學生成上述的模型就表示學生打分對學生成績的一元線性回歸。其線性關系可以績的一元線性回歸。其線性關系可以用學生成績與學生打分的用學生成績與學生打分的XY散點圖散點圖中的趨勢線來表示。中的趨勢線來表示。n在在Excel中,將光標移至前面畫出的中,將光標移至前面畫出的學生成績與學生打分的學生成績與學生打分的XY散點圖中散點圖中的散點處,先單擊鼠標左鍵,再點擊的散點處,先單擊鼠標左鍵,再點擊鼠標右鍵,如下圖:鼠標右鍵,如下圖: n 為了考察自變量為了考察自變量X(學生成績)對因變量(學生成績)對因變量Y(學生打分)的影響,調用(學生打分)的影響,調用“工具工具”中的中的“
24、數據分析數據分析”中的中的“回歸回歸”功能。功能。n在上圖中,在上圖中,“Significance F”的數值的數值為為5.74E-09,即,即5.7410-9,遠小于顯,遠小于顯著性水平著性水平0.05,即在顯著性水平,即在顯著性水平0.05上我們可以拒絕因變量上我們可以拒絕因變量Y(學生打分)(學生打分)與自變量與自變量X(學生成績)之間的(總體)(學生成績)之間的(總體)相關系數等于相關系數等于0的原假設。由于這兩者的原假設。由于這兩者之間的(樣本)相關系數(之間的(樣本)相關系數(Multiple R)為為0.857,大于,大于0,因此,學生打分與,因此,學生打分與學生成績之間存在正相
25、關性,即學生學生成績之間存在正相關性,即學生成績越好,其對老師的評估分數也越成績越好,其對老師的評估分數也越高。高。nR平方(平方(R Square),表示因變量),表示因變量Y的(樣本的)數據的波動有多大比的(樣本的)數據的波動有多大比例是由自變量例是由自變量X的(樣本的)數據的的(樣本的)數據的波動引起的,或者說是可以由自變波動引起的,或者說是可以由自變量量X的(樣本的)數據的波動來解釋的(樣本的)數據的波動來解釋的。的。n從上圖中,注意到學生打分的從上圖中,注意到學生打分的70%以上(以上(73.48%)的波動(既不同學)的波動(既不同學生之間的打分差異)是可以由學生生之間的打分差異)是
26、可以由學生成績的波動(即不同學生之間的成成績的波動(即不同學生之間的成績差異)來解釋的。績差異)來解釋的。n需要注意的是,因變量需要注意的是,因變量Y的變動可的變動可以被自變量以被自變量X的變動來解釋,并不的變動來解釋,并不意味著這兩者之間存在著因果關意味著這兩者之間存在著因果關系。它們完全可能是同一個原因系。它們完全可能是同一個原因的兩個結果。的兩個結果。n其次,這也并不意味著因變量其次,這也并不意味著因變量Y和和自變量自變量X之間的真實關系就是一元之間的真實關系就是一元線性回歸模型所表示的線性關系。線性回歸模型所表示的線性關系。這種線性關系很可能只是它們之這種線性關系很可能只是它們之間較為
27、復雜的關系的一種較好的間較為復雜的關系的一種較好的近似。近似。n再次,在自變量再次,在自變量X的樣本觀測值范的樣本觀測值范圍以外是否存在著類似的回歸關系,圍以外是否存在著類似的回歸關系,尚無法肯定。尚無法肯定。n最后,對于任何兩個指標或變量,最后,對于任何兩個指標或變量,無論它們之間是什么樣的關系,我無論它們之間是什么樣的關系,我們都可以進行上述計算。而它們之們都可以進行上述計算。而它們之間是否線性關系或能否用線性關系間是否線性關系或能否用線性關系較好地近似,則要看計算結果中的較好地近似,則要看計算結果中的R平方(平方(R Square)是否足夠大。)是否足夠大。n前面分析表明,學生對老師的評
28、估前面分析表明,學生對老師的評估分數與學生本門課程的學習成績高度分數與學生本門課程的學習成績高度相關。或許對老師喜愛程度上的差異相關。或許對老師喜愛程度上的差異會影響學生的學習興趣和學習成績,會影響學生的學習興趣和學習成績,但一般而言,同一門課程學習成績的但一般而言,同一門課程學習成績的好壞很大程度上取決于學生們自身,好壞很大程度上取決于學生們自身,而不決定于老師的教學水平,因為這而不決定于老師的教學水平,因為這時老師對所有學生的教學水平是一致時老師對所有學生的教學水平是一致的。的。n由此看來,學生評教的分數在評判由此看來,學生評教的分數在評判教學質量當中作為主要參考因素在某教學質量當中作為主
29、要參考因素在某種程度上是不恰當的,也不是客觀的。種程度上是不恰當的,也不是客觀的。n當然,并不是所有的課程的學生當然,并不是所有的課程的學生打分都與學生成績存在高度的相打分都與學生成績存在高度的相關性,也不排除某些老師的教學關性,也不排除某些老師的教學會受到所有學生的歡迎或排斥。會受到所有學生的歡迎或排斥。n如果出現這種情況,即學生成績如果出現這種情況,即學生成績與學生打分之間的正相關性比較與學生打分之間的正相關性比較弱的情況,那么該課程的學生打弱的情況,那么該課程的學生打分的客觀性就會有所增加。分的客觀性就會有所增加。n此外,學生成績只是影響評教分此外,學生成績只是影響評教分數的一個因素,還
30、有一些與教學數的一個因素,還有一些與教學不完全相關的因素在影響著評教不完全相關的因素在影響著評教結果。對于這些因素有待進一步結果。對于這些因素有待進一步的分析。的分析。n最后,這里的定量分析結果并不最后,這里的定量分析結果并不是要拒絕學生參與教學評估,而是要拒絕學生參與教學評估,而是提出問題,以期在保證學生參是提出問題,以期在保證學生參與的前提下,運用更為充分的定與的前提下,運用更為充分的定量分析方法,制定出科學合理的量分析方法,制定出科學合理的評教標準。評教標準。現實問題一:現實問題一:技術人員人數的預測技術人員人數的預測 某市人事局為了研究針對外來技術某市人事局為了研究針對外來技術人員的戶
31、籍政策,需要預測未來幾年人員的戶籍政策,需要預測未來幾年各級技術人員的人數。各級技術人員的人數。 當時,該市人事局能夠提供的只當時,該市人事局能夠提供的只是是2000年至年至2003年具有初級、中級和年具有初級、中級和高級職稱者的人數,要求高級職稱者的人數,要求根據該市今根據該市今后后GDP的增長趨勢,預測的增長趨勢,預測2004年至年至2010年具有初級、中級和高級職稱者年具有初級、中級和高級職稱者的人數。的人數。現實問題一:現實問題一:技術人員人數的預測技術人員人數的預測 定量分析一:定量分析一: 要根據該市今后要根據該市今后GDP的增長趨勢來預測的增長趨勢來預測2004年至年至2010年
32、具有初級職稱、中級職稱和高級職稱者年具有初級職稱、中級職稱和高級職稱者的人數,的人數,首先首先是要建立較為可信的該市技術人員數是要建立較為可信的該市技術人員數量與量與GDP的相互關系模型,的相互關系模型,其次其次是要有可靠的對該是要有可靠的對該市今后市今后GDP的增長趨勢的預測。的增長趨勢的預測。 盡管可以從該市統計年鑒上查到該市盡管可以從該市統計年鑒上查到該市2000年至年至2003年的年的GDP數據,但是,僅僅只有四年的年度數數據,但是,僅僅只有四年的年度數據,尚不足以構建起較為可信的該市技術人員數量據,尚不足以構建起較為可信的該市技術人員數量與與GDP的相互關系模型;即使有較為可靠的對該
33、市的相互關系模型;即使有較為可靠的對該市今后今后GDP的增長趨勢的預測,也難以根據該市今后的增長趨勢的預測,也難以根據該市今后GDP的增長趨勢來預測的增長趨勢來預測2004年至年至2010年具有初、年具有初、中、高級職稱者的人數;更何況,對該市今后中、高級職稱者的人數;更何況,對該市今后GDP的增長趨勢的預測也難免會存在一定的誤差。的增長趨勢的預測也難免會存在一定的誤差。 為了對技術人員數量的變化有一個感性認識,為了對技術人員數量的變化有一個感性認識,首先在首先在Excel中對年份做關于技術人員數量的中對年份做關于技術人員數量的XY散散點圖。在插入中選擇圖表。點圖。在插入中選擇圖表。 從圖中可
34、以看出,具有各級職稱的技術從圖中可以看出,具有各級職稱的技術人員的人數都呈現一種近似線性的增長趨勢。人員的人數都呈現一種近似線性的增長趨勢。其中,初級職稱人員的增長其中,初級職稱人員的增長 較快而高級職較快而高級職稱人員的增長較緩。稱人員的增長較緩。 最后直接根據最后直接根據2000至至2003年的該市具年的該市具有初級、中級和高級職稱者的人數來預測有初級、中級和高級職稱者的人數來預測2004年至年至2010年具有初、中、高級職稱者年具有初、中、高級職稱者的人數。的人數。 構建各級職稱人員數量構建各級職稱人員數量關于時間(年份)關于時間(年份)的的一元線性回歸一元線性回歸模型,并以此模型來預測
35、各模型,并以此模型來預測各級職稱人員在級職稱人員在2004年至年至2010年里的數量。年里的數量。 在Excel中,直接調用函數FORECAST來直接得到一元線性回歸模型的預測結果。 上圖中,上圖中,X指的是我們要預測技術人員人數的那指的是我們要預測技術人員人數的那個年份;個年份;Known-ys是指已知的因變量,在這里是是指已知的因變量,在這里是指指2000年至年至2003年的技術人員數;年的技術人員數; Known-xs是是指已知的自變量,在這里是指指已知的自變量,在這里是指2000年至年至2003年的年年的年份數。份數。 以此類推,我們可以計算出以此類推,我們可以計算出2004至至201
36、0年年各級職稱技術人員人數的預測值。各級職稱技術人員人數的預測值。 2004年至年至2010年各級職稱人員占當年各級職稱人員占當年全部技術人員的比例,我們可以注意年全部技術人員的比例,我們可以注意到,這里的預測結果延續了到,這里的預測結果延續了2000至至2003年的一個趨勢,即初級職稱的人員在全年的一個趨勢,即初級職稱的人員在全部技術人員中的比例呈緩慢的上升趨勢。部技術人員中的比例呈緩慢的上升趨勢。這是該市人事局所不愿意見到的現象。這是該市人事局所不愿意見到的現象。當然,不能因為不愿意見到就回避這一當然,不能因為不愿意見到就回避這一可能的趨勢。它的意義就在于提醒該市可能的趨勢。它的意義就在于
37、提醒該市人事局應當加強職稱的評審工作和加大人事局應當加強職稱的評審工作和加大扶持、引進高級職稱技術人才的力度。扶持、引進高級職稱技術人才的力度。現實問題二:現實問題二:偷稅的簡單識別偷稅的簡單識別 一般而言,偷稅現象在不少企業中不同一般而言,偷稅現象在不少企業中不同程度地存在。隱瞞銷售收入、減少計稅依據程度地存在。隱瞞銷售收入、減少計稅依據是最常見的偷稅手法。稅務機關如果對所有是最常見的偷稅手法。稅務機關如果對所有企業逐戶進行稅務檢查,將花費大量的人力、企業逐戶進行稅務檢查,將花費大量的人力、物力、財力并且收效甚微。稅務機關是否能物力、財力并且收效甚微。稅務機關是否能夠通過對眾多企業某些財務指
38、標的分析,較夠通過對眾多企業某些財務指標的分析,較為迅速地發現隱瞞銷售收入的企業,進而集為迅速地發現隱瞞銷售收入的企業,進而集中力量,有陣對性地對這部分企業進行稅務中力量,有陣對性地對這部分企業進行稅務重點稽查,確認偷稅事實,打擊偷稅行為,重點稽查,確認偷稅事實,打擊偷稅行為,挽回國家財政收入損失呢?挽回國家財政收入損失呢?定量分析二:定量分析二: 日常調查發現,采取隱瞞銷售收入進行日常調查發現,采取隱瞞銷售收入進行偷稅的企業,一般情況下其工人工資支出在偷稅的企業,一般情況下其工人工資支出在賬簿上體現得較為真實。而且,在同一地區賬簿上體現得較為真實。而且,在同一地區某一特定行業內,由于工人流動
39、較為充分的某一特定行業內,由于工人流動較為充分的緣故,在該行業不同企業內的工人月平均工緣故,在該行業不同企業內的工人月平均工資大體是相同或相近的;不少行業(例如機資大體是相同或相近的;不少行業(例如機械制造業、食品制造業、服裝制造業)大多械制造業、食品制造業、服裝制造業)大多推行計件工資,因此,在同一地區同一行業推行計件工資,因此,在同一地區同一行業內,相同的工人工資支出對應的銷售收入大內,相同的工人工資支出對應的銷售收入大體是一致的。體是一致的。 基于以上理由,我們可以建立一個銷售基于以上理由,我們可以建立一個銷售收入和工人工資總額之間的一元線性回歸模收入和工人工資總額之間的一元線性回歸模型
40、,再通過工人工資總額來預測銷售收入。型,再通過工人工資總額來預測銷售收入。從而,在對某地區某行業若干家核算較為規從而,在對某地區某行業若干家核算較為規范的企業銷售收入和工人工資總額統計資料范的企業銷售收入和工人工資總額統計資料基礎上,我們可以通過另外某戶企業工人工基礎上,我們可以通過另外某戶企業工人工資總額來預測其銷售收入,該銷售收入可認資總額來預測其銷售收入,該銷售收入可認為是該企業正常情況下應當實現的平均銷售為是該企業正常情況下應當實現的平均銷售收入。如果該企業賬面銷售收入明顯低于該收入。如果該企業賬面銷售收入明顯低于該預測收入,則可認為該企業有隱瞞銷售收入預測收入,則可認為該企業有隱瞞銷
41、售收入偷稅的嫌疑。偷稅的嫌疑。 例如,某市例如,某市10戶核算規范的摩托車鏈輪生戶核算規范的摩托車鏈輪生產企業年度銷售收入和工人工資總額的統產企業年度銷售收入和工人工資總額的統計資料如下:計資料如下: 而該市一家待查的摩托車鏈輪生產而該市一家待查的摩托車鏈輪生產企業向稅務部門上報的年度銷售收入和企業向稅務部門上報的年度銷售收入和工人工資總額分別為工人工資總額分別為765.5萬元和萬元和308萬萬元。元。 先用先用10戶核算規范的某市摩托車鏈輪戶核算規范的某市摩托車鏈輪生產企業年度銷售收入和工人工資總額生產企業年度銷售收入和工人工資總額的統計資料,建立一個銷售收入和工人的統計資料,建立一個銷售收
42、入和工人工資總額之間一元線性回歸模型。工資總額之間一元線性回歸模型。 Y=0 +1X+ X X為工資總額,為工資總額,Y Y為銷售收入。為銷售收入。 在上圖中,在上圖中,“Significance F”的數值為的數值為5.66E-12,即,即5.6610-12,小于顯著性水平,小于顯著性水平0.05,說明銷售收入與工人工資總額之間存,說明銷售收入與工人工資總額之間存在顯著的相關性,而在顯著的相關性,而R平方(平方(R Square)達)達到到0.998,約為,約為1,表明銷售收入的差異幾乎,表明銷售收入的差異幾乎完全可以由工人工資總額的差異來解釋。完全可以由工人工資總額的差異來解釋。 在上圖中
43、,一元線性回歸模型中的兩個參在上圖中,一元線性回歸模型中的兩個參數數0和和1的估計值分別是的估計值分別是“Intercept”和和“工資工資(萬元)(萬元)”所對應的所對應的“Coefficients”的數值。的數值。也就是說,這里的回歸方程是:也就是說,這里的回歸方程是:Y=-11.33+3.956X 這表明,工人工資總額每增加這表明,工人工資總額每增加1萬元,對萬元,對應銷售收入會增加應銷售收入會增加3.596萬元。萬元。 該市一家待查的摩托車鏈輪生產企業向該市一家待查的摩托車鏈輪生產企業向稅務部門上報的年度銷售收入和工人工資總稅務部門上報的年度銷售收入和工人工資總額分別為額分別為765.
44、5萬元和萬元和308萬元。萬元。 利用上面得到的回歸方程,我們用這家利用上面得到的回歸方程,我們用這家企業的工人工資總額來預測其銷售收入的平企業的工人工資總額來預測其銷售收入的平均水平為均水平為-11.33+3.596308=1096.238 于是,該企業賬面銷售收入比預測的平于是,該企業賬面銷售收入比預測的平均水平少了均水平少了1096.238-765.5=330.738萬元。萬元。 實際上,銷售收入的平均水平并不代表企業實際上,銷售收入的平均水平并不代表企業實際上將會達到的銷售收入水平。由于各種因素實際上將會達到的銷售收入水平。由于各種因素的干擾,企業的實際銷售收入會圍繞這個平均水的干擾,
45、企業的實際銷售收入會圍繞這個平均水平而波動,但是波動的幅度不會太大。因此,我平而波動,但是波動的幅度不會太大。因此,我們不能一看到企業的賬面銷售收入比預測的平均們不能一看到企業的賬面銷售收入比預測的平均水平少就認為企業在偷稅,我們只不過是認為那水平少就認為企業在偷稅,我們只不過是認為那些賬面銷售收入比預測的平均水平減少得比較多些賬面銷售收入比預測的平均水平減少得比較多的企業存在偷稅嫌疑。的企業存在偷稅嫌疑。 判斷賬面銷售收入比預測的平均水平減少判斷賬面銷售收入比預測的平均水平減少得是否得是否“比較多比較多”的標準是看有沒有超出兩倍的的標準是看有沒有超出兩倍的標準誤差。其顯著水平約為標準誤差。其
46、顯著水平約為0.05.而這個標準誤而這個標準誤差的數值就是上圖中第六行的差的數值就是上圖中第六行的“標準誤標準誤差差”17.92。 由于待查企業的賬面銷售收入與預測收由于待查企業的賬面銷售收入與預測收入水平的差距入水平的差距330.738萬元是這個標準誤差萬元是這個標準誤差17.92萬元的萬元的18.5倍,遠遠大于倍,遠遠大于2倍的水平,倍的水平,因此,我們有理由認為,該企業存在隱瞞銷因此,我們有理由認為,該企業存在隱瞞銷售收入進行偷稅的嫌疑。售收入進行偷稅的嫌疑。 在前面的分析中,為了保證分析結果的在前面的分析中,為了保證分析結果的可靠性,要求用于建立回歸模型的樣本數據可靠性,要求用于建立回
47、歸模型的樣本數據是真實的。本案例是直接將核算規范的企業是真實的。本案例是直接將核算規范的企業的銷售收入數據作為真實的數據來建模的。的銷售收入數據作為真實的數據來建模的。而更好的方式應當是將經過稅務部門檢查、而更好的方式應當是將經過稅務部門檢查、確認的銷售收入數據作為真實的數據。確認的銷售收入數據作為真實的數據。 實際上,在調用回歸分析時,如果選實際上,在調用回歸分析時,如果選擇了其它選項,我們還可以對模型及所用擇了其它選項,我們還可以對模型及所用數據進行更進一步的考察:數據進行更進一步的考察: 在上圖中,在上圖中,“預測銷售收入(萬元)預測銷售收入(萬元)”是用一元線性回歸模型計算出來的那是用
48、一元線性回歸模型計算出來的那10戶核戶核算規范的企業銷售收入的預測值。若標準殘算規范的企業銷售收入的預測值。若標準殘差的絕對值大于差的絕對值大于2,則視該樣本為異常樣本,則視該樣本為異常樣本,需要對其數據進行檢查,因為它們常常代表需要對其數據進行檢查,因為它們常常代表了錯誤的數據,要在對其加以修正后,重新了錯誤的數據,要在對其加以修正后,重新估計方程。估計方程。 如果檢查發現樣本數據沒有錯誤,則應如果檢查發現樣本數據沒有錯誤,則應當考察是否存在某種明顯的影響因素導致了當考察是否存在某種明顯的影響因素導致了異常值。如果確有某種因素存在,要么在異常值。如果確有某種因素存在,要么在模型中加入這一因素
49、,要么剔除異常樣本模型中加入這一因素,要么剔除異常樣本 如果沒有其他原因,且異常值個數不足如果沒有其他原因,且異常值個數不足5%,那,那么這些異常值可能完全是由于隨機因素的影響而產么這些異常值可能完全是由于隨機因素的影響而產生的,就保留這些異常值參與建模與方程的估計。生的,就保留這些異常值參與建模與方程的估計。 我們注意到,上圖中的數據表明,第八個企業我們注意到,上圖中的數據表明,第八個企業的標準殘差小于的標準殘差小于-2,這說明該企業也存在低報銷售,這說明該企業也存在低報銷售收入的可能性,應當對該企業的會計信息進行一番收入的可能性,應當對該企業的會計信息進行一番核查后再使用。核查后再使用。
50、下圖是由下圖是由“百分比排位百分比排位”畫出的正態概率圖畫出的正態概率圖 (當想對一系列數據進行由大到小的排名(當想對一系列數據進行由大到小的排名時可以用到此項,而且除了正常排名外還會時可以用到此項,而且除了正常排名外還會產生一個百分比排位,百分比排位是指小于產生一個百分比排位,百分比排位是指小于本行的數據個數除以小于本行的數據個數加本行的數據個數除以小于本行的數據個數加上大于本行的數據個數之和所得到的百分比上大于本行的數據個數之和所得到的百分比排位)排位) 一元線性回歸模型要求誤差項服從正態概一元線性回歸模型要求誤差項服從正態概率分布。如果上述數據點基本上分布在一條率分布。如果上述數據點基本
51、上分布在一條直線上,我們就認為這一要求得到了滿足;直線上,我們就認為這一要求得到了滿足;否則,計算出來的一元線性回歸模型在應用否則,計算出來的一元線性回歸模型在應用時會導致較大的誤差而不能使用。時會導致較大的誤差而不能使用。 Excel畫出的另外兩個圖是殘差圖和擬合畫出的另外兩個圖是殘差圖和擬合圖。擬合圖將上圖中的預測數據與原始數據圖。擬合圖將上圖中的預測數據與原始數據畫在一張圖上,通過數據點的重合性來直觀畫在一張圖上,通過數據點的重合性來直觀地反映回歸模型的有效性,可供分析的意義地反映回歸模型的有效性,可供分析的意義不大。而下面的殘差圖的意義則比較大。不大。而下面的殘差圖的意義則比較大。 這
52、是因為,一個合格的一元線性回歸模型這是因為,一個合格的一元線性回歸模型要求殘差圖中的散點應落在一條水平帶中要求殘差圖中的散點應落在一條水平帶中間,雜亂無規律;否則,計算出來的一元間,雜亂無規律;否則,計算出來的一元線性回歸模型也會因為在應用時會導致較線性回歸模型也會因為在應用時會導致較大的誤差而不能使用。大的誤差而不能使用。 本案例所展示只是定量分析技術在稅務本案例所展示只是定量分析技術在稅務稽查選案中的一個簡單應用。如果企業同時稽查選案中的一個簡單應用。如果企業同時少報工人的工資總額,上述辦法就難以奏效少報工人的工資總額,上述辦法就難以奏效了。好在我們有更復雜的定量分析技術來應了。好在我們有
53、更復雜的定量分析技術來應對這種情況,而且這樣的一些技術手段已經對這種情況,而且這樣的一些技術手段已經進入了稅務部門的辦公系統。正是因為有這進入了稅務部門的辦公系統。正是因為有這樣一些定量分析技術,加上電子信息技術,樣一些定量分析技術,加上電子信息技術,才保證了近些年來我國稅收的增長速度高于才保證了近些年來我國稅收的增長速度高于GDP的增長速度,偷漏稅案件數量能夠得到的增長速度,偷漏稅案件數量能夠得到有效的控制。定量分析技術對于實現稅務稽有效的控制。定量分析技術對于實現稅務稽查選案的科學性、準確率和快捷化具有非常查選案的科學性、準確率和快捷化具有非常重要的現實意義。重要的現實意義。 相比之下,我
54、國的銀行系統目前還相比之下,我國的銀行系統目前還很少使用定量分析技術,從而監管部門很少使用定量分析技術,從而監管部門只能采用承受損失的方式即通過剝離不只能采用承受損失的方式即通過剝離不良貸款來降低不良貸款余額和不良貸款良貸款來降低不良貸款余額和不良貸款率。不良貸款的金融風險始終得不到有率。不良貸款的金融風險始終得不到有效地控制。效地控制。 由于定量分析技術能夠在一定程度由于定量分析技術能夠在一定程度上發現和限制某些人為的故意失誤,因上發現和限制某些人為的故意失誤,因此這一技術受到某些部門的排斥就在所此這一技術受到某些部門的排斥就在所難免了。難免了。現實問題三:現實問題三:糧食產量相關因素分析糧
55、食產量相關因素分析 為了完成定量分析方法課的作業,盡管老為了完成定量分析方法課的作業,盡管老師一再強調定量分析必須以問題為導向而師一再強調定量分析必須以問題為導向而不是以數據為導向,某不是以數據為導向,某MPA小組還是決定小組還是決定根據根據中國統計年鑒中國統計年鑒和和中國農村統計中國農村統計年鑒年鑒中的數據來分析某些指標和糧食產中的數據來分析某些指標和糧食產量的相關性。量的相關性。定量分析三:定量分析三: 該該MPA小組推測糧食播種植面積、有效小組推測糧食播種植面積、有效灌溉面積、化肥施用量、農業機械總動力、灌溉面積、化肥施用量、農業機械總動力、農業支出、農業支出占財政支出的比重應當農業支出
56、、農業支出占財政支出的比重應當是六個與糧食總產量相關的指標,于是他們是六個與糧食總產量相關的指標,于是他們考慮用這六個指標作為自變量、糧食總產量考慮用這六個指標作為自變量、糧食總產量作為因變量來建立一個多元線性回歸模型,作為因變量來建立一個多元線性回歸模型,再根據模型來分析這六個指標與糧食總產量再根據模型來分析這六個指標與糧食總產量的相關情況。的相關情況。 調用調用Excel“工具工具”、“數據分析數據分析”中的中的“回歸回歸”功能:功能: 在上圖中,在上圖中,“Significance F”的數值為的數值為6.2E-10,即,即6.210-10,遠小于顯著性水平遠小于顯著性水平0.05,似乎
57、說明這六個自變量的全部或部分,似乎說明這六個自變量的全部或部分與糧食總產量之間存在顯著的相關性,而與糧食總產量之間存在顯著的相關性,而R平方(平方(R Square)為)為0.981,似乎表明上述,似乎表明上述多元線性回歸模型幾乎能夠完全解釋糧食總多元線性回歸模型幾乎能夠完全解釋糧食總產量的波動。產量的波動。 在這里,我們為什么要增加在這里,我們為什么要增加“似乎似乎”這這兩個字,我們稍后再解釋。我們先看上表中兩個字,我們稍后再解釋。我們先看上表中“有效灌溉面積(千公頃)有效灌溉面積(千公頃)”和和“農業支出農業支出占財政支出的比重占財政支出的比重”這兩個自變量所對應的這兩個自變量所對應的p-
58、值(值(p-value)。這兩個)。這兩個p-值都大于顯著性值都大于顯著性水平水平0.05,其含義是,這兩個字變量的系,其含義是,這兩個字變量的系數數0.124和和-187都可以視為都可以視為0,從而表面上看這,從而表面上看這兩個自變量對于因變量兩個自變量對于因變量糧食總產量沒有糧食總產量沒有什么影響,而實質上則是,在其它自變量不什么影響,而實質上則是,在其它自變量不變的情況下,這兩個自變量的單獨變動對因變的情況下,這兩個自變量的單獨變動對因變量的影響可以忽略。通常情況下,這兩個變量的影響可以忽略。通常情況下,這兩個自變量要從多元線性回歸模型中剔除。自變量要從多元線性回歸模型中剔除。 就就“農
59、業支出占財政支出的比重農業支出占財政支出的比重”這個指這個指標而言,它是一個相對指標,而糧食總產量標而言,它是一個相對指標,而糧食總產量是一個絕對指標。將一個相對指標作為一個是一個絕對指標。將一個相對指標作為一個絕對指標的回歸模型中的自變量本身就是不絕對指標的回歸模型中的自變量本身就是不大合適的,因此,從模型中刪除這個指標是大合適的,因此,從模型中刪除這個指標是沒有什么可以異議的。沒有什么可以異議的。 但是,但是,“有效灌溉面積(千公頃)有效灌溉面積(千公頃)”應當是一個對糧食總產量有著直接影響應當是一個對糧食總產量有著直接影響的指標,否則人們也不會修建水利工程的指標,否則人們也不會修建水利工
60、程增加有效灌溉面積了。那么,為什么這增加有效灌溉面積了。那么,為什么這個自變量所對應的個自變量所對應的p-值沒能小于顯著性值沒能小于顯著性水平水平0.05呢?呢? 實際上,如果我們以實際上,如果我們以“有效灌溉面積有效灌溉面積(千公頃)(千公頃)”作為自變量,以糧食總產作為自變量,以糧食總產量作為因變量,建立一個一元線性回歸量作為因變量,建立一個一元線性回歸模型,選擇模型,選擇“工具工具”中的中的“數據分析數據分析”中的中的“回歸回歸”,結果如下:,結果如下: 上圖中的上圖中的R平方(平方(R Square)表明,糧食)表明,糧食總產量的波動的一半以上可以由有效灌溉面積的總產量的波動的一半以上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農村宅基地使用權互換及農產品倉儲物流設施承包協議
- 新版消防安全試題及答案
- 研發項目保密及知識產權保護補充合同
- 美團餐飲商家線上節日主題套餐營銷服務協議
- 抖音網紅流量扶持與品牌合作合同
- 人力資源市場拓展與品牌合作框架協議
- 水幕廣告幕墻設計與制作安裝合同
- 展商安全責任認定補充協議
- 海外倉儲物流配送與供應鏈優化合同
- 展會兼職安保人員崗位聘用與應急響應合同
- GB/T 10069.3-2008旋轉電機噪聲測定方法及限值第3部分:噪聲限值
- GB 252-2015普通柴油
- 生產交接班記錄表
- 《活著》作品簡介名著導讀PPT
- 硅酸鈣板、含鋯型硅酸鋁纖維棉、高鋁型硅酸鋁纖維棉技術規格
- 2018年可行性研究報告投資估算及財務分析全套計算表格共14個附表excle帶公式只更改標紅部分即可帶說明
- 企業落實安全生產主體責任重點事項清單(20項要點)
- 護士分層級培訓與管理課件
- 《人機工程學》第5章人的作業能力與疲勞課件
- 彩鋼產品合格證
- 人臉識別外文文獻(共9頁)
評論
0/150
提交評論