




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第四章從數理統計到古典回歸模型案例4-1:人類天生的統計本能在基因上,我們仍和未開化的土著人很接近。我們信念的形成,充滿著迷信——即使今天也不例外,甚至尤以今天為甚。某一天,原始部落的某個人摸鼻子后不久,天開始下雨,于是他煞費苦心地發展出一套抓鼻子祈雨的方法。同樣地,我們會把經濟的繁榮歸功于中央銀行降低利率。或者一家公司的經營成功和新總裁走馬上任有關。類似風馬牛不相及的事件屢屢被我們扯上聯系,并導致我們在人生的重要抉擇關頭步步踏錯,先機盡失。我們所受的教育和文化,騙我們去相信科學和邏輯進入現代生活時,迷信就會自然消除。但是隨著我們的智力與日俱增,隨機現象卻源源不絕而來,我們變得越來越迷信。哈佛大學心理學家Skinner做過一個關老鼠和鴿子的籠子,籠子有個開關,鴿子可以用喙去操作。此外,有個電動裝置會把食物送進籠子里。1948年,他以隨機的方式送食物給非常饑餓的鴿子。隨后他觀察到鴿子表現出相當驚人的行為。它們根據內在根深蒂固的統計機制,發展出極其復雜、有如祈雨般的舞蹈行為;有只鴿子會對著籠中特定的一角有規律地搖頭,另一只鴿子會以逆時鐘方向轉頭。幾乎每一只鴿子都發展出一種與獲取食物聯結起來的特別儀式,慢慢地固定到它們心里。有那么一段時間,我迷上了炒股,每天早上搭黃色出租車去證券公司,有一天,不幸卻搭上一輛紅色出租車,司機還不知道他要去的地方,我試著要他從央行門口往南走,但他頑固地再往南多走了一個街區,我被逼得只好利用后門口進入證券公司,那一天,我操作的投資組合賺了很多錢,那是我年輕時最美好的一天。隔天,一切如常,我在校門口等那輛出租車,前一天的紅色出租車和那個頑固的家伙卻不見蹤影。真是不巧,因為我有個無法解釋的念頭,想要謝謝那天他對我做的好事,還想多給他一點錢。我好不容易等到一輛紅色的出租車,上車后我告訴新司機載我繞到證券公司的后門,也就是前一天下車的那個地方。。。。進了公司,迎面有個鏡子,看著自己,發現仍然裝著昨天那件沾了污漬的襯衣。我體內有另一個我,顯然相信從這個入口上樓、裝這件臟衣服、坐與前一天一樣的車、走同樣的入口與股票的市場走勢之間有強烈的因果關系存在。我為自己的行為舉止像個騙子,猶如扮演別人角色的演員一樣而啞然失笑。有些賭徒相信賭博的結果和某些身體動作之間有一些不自然的關聯,據而發展出一些扭曲的行為。我出現了所謂的“賭徒的迷信”。雖然細微且難以察覺,卻正在迅速累積。我們的心似乎一直想找出某種統計上的關聯,在理性上我們知道這種統計關聯是騙人的,因為樣本很小。但是這種天生的統計本能,并沒有因為我在假說檢驗上的專長而有所抑制。——納西姆。塔勒布,《隨機致富的傻瓜》,中信出版社概率論是已知總體,即已知DGP或者分布函數,求隨機變量取特定值或者落在特定區域內的可能性。而數量統計是未知DGP或分布函數,面對一個黑箱,根據從黑箱中取出的東西來推測黑箱中的DGP或者分布函數的類型以及未知參數的取值。f(x)f(x)案例4-2:統計小史1085年,《末日審判》(Domesday)統計了田地名稱、擁有者、面積、可耕地面積、牛群數量、土地價值…….,但國王威廉沒有將這些數據用于任何地方,900年來,他一直是研究的對象。英國的格朗特(Graunt,1620-1674)對這樣一個問題很感興趣“誰活著?誰死了,為什么死了?”,他研究了死亡公告,分析了1604-1661年的數據(<NaturalandpoliticalobservationmentionedinafollowingindexandmadeupontheBillsofmortality>),書中寫道:“大多數人只是找找奇怪的事,看看離奇的死亡,僅此而已”。謀殺很受關注,但是格發現,在229250例死亡中,只有86人死于謀殺,謀殺不是殘廢的主要原因。人們還認為,“瘟疫伴隨著一個新王朝的開始”,格證明這種看法是錯誤的。國王查理三世出面舉薦他加入皇家學會。哈雷預言哈雷慧星將于1758年返回,他對天文著迷,個人的擁有的儀器足以成立一個天文臺。它沒畢業就到南大西洋的一個小島上,準確地測量了300多顆恒星,他描繪了第一張世界海洋地圖,標明了風向,其中包含的信息對每一位船長都有重要價值。他提問“40歲的男人再活7年的概率是多大”?并編出了第一年生命表,資助牛頓出版了科學史上最有影響的著作《自然哲學的數學原理》。費希爾(Fisher,1890-1962)是現代統計學的奠基人,1925年出版《研究工作者用的統計方法》,提出隨機化的實驗設計。休哈特(Shewhart,1891-1967)提出質量控制,戴明(Deming)將其發揚光大。應用于流行病學、斯諾(Snow,1813-1858)發現霍亂與水源的關系。另用于人口普查,民意調查等。一、問題的提出天安門城樓到底有多高,其“真實”的高度究竟是多少?恐怕沒有人能夠給出完全精確的答案,即使給出來也未必令人信服。盡管實踐是檢驗真理的唯一標準,然而如果我們去測量,每次測量的結果都會不同,應該相信哪一次的結果呢?測量很多很多次是否有幫助?如何來處理這很多次的測量結果,以便最好地逼近真實高度?上述問題可以轉化為如下的數學模型:其中為天安門城樓的高度,當然是一個客觀存,有唯一精確值的未知數。而u為測量誤差,是一個隨機變動的隨機數。y為測量結果。顯然只有y是能夠觀察到的,而真實高度與誤差卻無法觀察到的,核心問題就是如何用觀察到的y來求得未知的?總體是任何一種定義良好的一種對象的全體,如全部人民大學的學生不是一個定義良好的總體,而全部人民大學學生的高考成績是一個定義良好的總體。天門安城樓高度的所有測量結果也是一個定義良好的總體(無限總體)??傮w也是一種數據生成機制(DGP,datageneratingprocess),如天門安城樓高度的測量結果由這一機制生成,既然u為隨機變量,則它有相應的矩,假設其方差為。二、樣本最容易理解的抽樣是從有限總體中抽取一個樣本,比如從100個混有紅球和黑球的暗箱中摸出8個球來。有限樣本的抽樣又分為放回和不放回兩種,如果放回,則同一個球可能被抽中兩次。從無限總體中抽取一個樣本可被視為某個數據生成過程(DGP)的一次實現。比如天門安城樓高度的測量結果y是一個無限總體,某一次的測量結果可視為按照公式所確定的數據產生機制生成一個數據yi。相應地n次測量的結果可被視為一個n維隨機向量(樣本)表格4SEQ表格\*ARABIC\s11:隨機抽樣:抽得任何一個樣本的概率相同yy1y2…yn第一次抽樣y1y11y12…y1n第二次抽樣y1y21y22…y2n………第m次抽樣ymym1ym2…ymn樣本聯合概率密度:已知隨機變量Y,從該總體中隨機的取一個容量為n的樣本,其聯合概率密度為fJ(Y1,Y2,Y3,…,Yn)。同分布:指總體服從同一種分布。想象一下,箱子中既有不同重量的紅球(假設重量服從正態分布f1(Y)),也有不同重量的綠球(假設其重量服從指數分布f2(Y)),于是從這個箱子里隨機抽取的球不是同分布的。如果箱子中只有紅球,則是同分布的。簡單隨機抽樣:是指每個樣本被抽取的可能性等同,也就是事前不知道會抽中哪個樣本,每個樣本都有同樣的可能被抽中,否則,就不能算做隨機抽樣。想像上面的例子,不論是很重的球還是很輕的球,也不論是紅球還是綠球,更不論服從什么分布,反正每個球被抽中的概率都一樣。比如箱中共有100個球,則每個球被取出的可能都為0.01。再如街頭攔訪,老出門在外的或老在家的人被抽中的概率就不一樣,是一個明顯的非隨機樣本。獨立:獨立,指的是各個試驗或觀察得到的樣本間是相互獨立的。獨立和隨機是兩回事,隨機樣本并不一定相互獨立,而相互獨立的兩個樣本并不一定隨機。獨立性要求每一次取球的結果不影響另一次取球的結果,如果取出一個紅球,下一次總是又取出一個紅球,則不獨立。同樣,如果取出一個很重的球,下一次總取出一個很輕的球,再下一次又取出一個很重的球,這種的樣本不獨立。案例4-3:獨立性與Polya過程阿瑟提出波利亞過程(polyaprocess),假設有個盒子,起初裝有等量的黑球和紅球,每次取球之前,得先猜測取出來的是哪個顏色,而猜對的概率取決于前面猜對的記錄,先前猜對的話,后來繼續猜對的概率會提高,仿真這種結果,可以看出結果變異非常大,有極多的成功,也有極多的失敗。在常見的模式中,玩家是把取出的球放回去后再猜下一次會取到哪種顏色的球,假設你這次猜對了,這會提高你下次贏的概率嗎?不會,但波利亞過程會,為什么這在數學上極難處理?原因出在獨立性的觀念被破壞。獨立性是指每一次取球時,都不受先前的結果影響,它是處理概率數學的必要條件。沙堆現象不斷地把沙加到頂端來蓋座沙堡,我想知道我的沙堡能蓋到多高,我的沙堡終于跨了,所有的沙又變成海灘上的一部分。最后一粒沙破壞了整座結構。線性的力量加在一個物體上,結果產生了非線性的效果。一粒沙竟然產生不成比例的后果?!耙桓静輭嚎逡活^駱駝”。生命是以非線性的方式呈現不公平。假想等候室里有一大堆學生等著試演測驗,最終錄用者將住進豪宅還可能染上吸毒惡習,而其他絕大多數人,他們將終生在附近的咖啡店端茶倒水。名氣的形成有其自身的動態過程,演員因為某一群人認識他而被另一群人認識,名氣像螺旋一樣動個不停,起點可能就在試演室。他會被選上,可能是某個可笑的細節恰好投合主試者當天的心情。要是主試者前一天對某個人產生好感,而這個受試者的名字聽起來和眼前這個人很像,那么從那個特殊的樣本歷史中選出來的這位演員,可能就必須在另一個樣本歷史中端送咖啡。獨立同分布:從服從同一分布的總體中隨機獨立地抽取樣本。獨立同分布樣本的聯合概率密度滿足公式:clearmatau=uniform(8,1)J=J(8,1,1)y=J*10+un=row(y)//①樣本容量end三、最小二乘估計OLS(一)最小二乘估計量取得樣本后,我們有了多個數據,如何處理這些數據呢?同樣的問題曾困惑著18世紀和19世紀初的許多天文學家和數學家。那個時代的人熱衷于測量天體的軌道長度,他們在很多地方建立天文臺,反復測量,得到大量的數據。比如測量慧星的軌道,“每次測量都有誤差,次數越多,誤差累積越多,但把次數減少并不是解決問題的辦法,用什么辦法來恰當地使用大量的數據呢”?勒讓德(Legendre,1752-1833)解決了如何從數據中得出準確結論的問題,他提出了“最小二乘法”。而著名的數學家高斯(1777-1855)也聲稱他發明了最小二乘法。拉普拉斯在1812年寫出《解析概率論》,他是拿破侖的朋友,但后來又背叛了拿破侖,他討論了誤差理論,提出土星是太陽質量的1/3512,估計偏離真實的1%的可能性是1/11000。他還提出了中心極限定理。最小二乘法的核心思想是:尋求樣本點與總體參數的距離最小。這種距離通常以平方和來表示,因此稱為最小二乘估計。根據這個式子,我們就可以計算出b稱之為β的最小二乘估計量(OLS)。mataC=invsym(J’J)*J’b=C*yb//②回歸系數Coef.end運用其他的原理,能得到其他估計量,比如矩估計量和極大似然估計量(見第九小節)。根據最小二乘法估計原理,我們得到如下的估計量:上式右邊顯然是一個函數,是樣本隨機變量的函數g(Y1,Y2,…,Yn)。實際上,估計量是一個處理隨機樣本的法則,這個法則是抽樣進行之前就已制定好的,不管實際上得到的是什么數據,這個法則都不變。而當這個法則改變了,我們就得到另一個估計量,比如將樣本減均值得到另一個估計量殘差e.殘差的平方和(即樣本隨機向量的某個二次型)是另一個估計量既然估計量是隨機變量的函數,它也是一個隨機變量,它的隨機性由樣本決定,隨著樣本而變,代入不同的樣本,同一個估計量會得到不同的估計值。估計量與估計值sysuseauto,clearsample10sumprice反復執行上面的三行命令,每一次我們都得到不同的均值。drawnormu,n(8)cleargy=10+uregy同樣,反復執行上述命令,每一次我們得到不同的估計值(二)線性無偏估計量對同一個樣本,可以定義無窮多的估計量,這些估計量僅依賴于總體的性質和定義估計量的函數,我們不能控制總體的特征,它是由客觀分布規律所決定的,而客觀分布規律又是由自然規律或社會力量來決定,不是我們所能控制的。但是我們可以選擇定義估計量的函數。問題是我們該選擇什么樣的函數來處理觀察到的樣本值呢?潛在的函數既可以是線性的也可以是非線性的,但線性的往往比較容易處理。線性估計量是樣本的線性函數(組合)。比如對樣本Y,給定任意非隨機矩陣A,AY便是一個線性估計量。其次,既然估計量是隨機變量,它也就具有期望等數字特征,而估計量的期望既取決于樣本特征,也取決于我們所選擇的函數形式(數據處理法則)。無偏估計量是一類特殊的估計量,無偏估計量的期望等于總體參數真值。注意估計量的無偏性評價的是估計法則的特性,而不是特定樣本。再次重申,一個估計量的無偏性和可能偏誤的大小依賴于Y的分布和函數g(),通常Y的分布是我們不能選擇的,但法則g()的選擇操縱在我們手中,如果我們想要得到一個無偏估計量,我們就要對g()做相應的選擇。無偏性反映的是有限樣本的性質,它可以理解為執行無窮次抽樣(抽樣次數m趨于無窮,但樣本容量n為一個有限值),然后利用每個樣本計算得到的估計值的期望等于總體參數真值。線性無偏估計量是同時滿足線性和無偏性的估計量。在測量的例子中,估計量b是線性的嗎?是無偏估計量嗎?是線性無偏估計量嗎?如果不是,需要滿足什么條件才是一個線性無偏估計量?從下式可以看出b是一個線性估計量如果要使b成為一個無偏估計量,必須滿足假設1:即當時,b為線性無偏估計量。如果假設不成立,則b是有偏的,在什么情況下,誤差為零的假設不成立呢?比如測量時用的工具并不準確,總是偏大。再比某測量員總是傾向于高估測量結果等。(三)有效估計量除了上述線性無偏估計量外,考慮另一個線性無偏估計量,因為顯然他們都是線性無偏估計量,我們又如何在這兩個法則中間選擇最好的一個呢?結論是進一步比較估計量的方差,選擇方差最小的那一個。如果兩個無偏估計量W1和W2,總有Var(W1)<Var(W2),則稱W1比W2相對有效。如果不限于考慮無偏估計量,那么比較方差大小就毫無意義。比如,無論取到什么樣本,我們都設定一個等于0的估計量,其方差最小,但毫無意義。同時滿足線性、無偏、最小方差的估計量稱為最小方差線性無偏估計量(BLUE)。假設2:,則證明:在假設1和假設2下,OLS估計量b為BLUE估計量盡管得到了但是,由于未知,仍然無法求出具體的值,無偏估計。mataP=J*invsym(J’J)*J’M=I(n)-Pe=Y-J*brmse=sqrt(e’e/(n-1))//③誤差標準差rmsese=rmse/n//④標準誤seend注意比較下面的四個概念的區別:總體方差:Var(Y)均方差(meansquarederror,MSE)定義為:MSE(W)=E[(W-θ)2=Var(W)+[Bias(W)]2=Var(W)+[E(W)-θ]2樣本方差:S是樣本的隨機變量抽樣方差:既然估計量是隨機變量,它也具有方差的屬性,稱為抽樣方差比較:抽樣方差是一個確定的數,不是一個隨機數。它由無窮次抽樣,每次抽樣獲得的樣本計算得到的估計值,對所有的估計值再計算方差而得到。但樣本方差是一個隨機變量,它隨不同的樣本而變動。MSE度量W離開θ的平均距離,依賴于方差和偏誤,利用MSE我們可以比較任何兩個估計量,即使其中之一或者兩者都是有偏誤的。(四)抽樣分布既然估計量是一個隨機變量,它就有相應的分布規律,稱之為抽樣分布。b服從什么分布呢?如果我們假設3:由于均值相當于隨機向量的一個函數(線性組合)。組合之后,均值仍然為隨機的,而且成為一個隨機變量。由于正態隨機變量的線性組合仍然服從正態分布。因此b也服從正態分布,正態分布由均值和方差確定,故估計量的抽樣分布下面的例題,首先生成一個均值為0,標準差為1的隨機誤差項,然后生成Y,再抽取8個樣本,計算其均值。重復上述程序1000次,得到1000個估計值,做這些估計值的直方圖,可以發現,它服從正態分布。captprogdropsdprogsddrawnormu,n(8)clear//8個期望為10的正態隨機樣本gy=10+uregyend***將上述抽樣試驗進行1000次,得到1000個均值和標準差simulate_b,reps(1000):sdsum//比較兩者的均值和標準差。tw(kdensity_b)(functiony=normalden(x,10,1/sqrt(8)),range(515))改變樣本容量為800,再進行試驗,觀察估計量的收斂性。matau=invnorm(uniform(8,1000))y=10*+ub=C*ymean(b’)st_matrix(“b”,b)svmatbtw(kdensity_b)(functiony=normalden(x,10,1/sqrt(8)),range(515))(五)誤差方差的估計量及其分布是一個估計量,自然是一個隨機變量,那么這個隨機變量服從什么分布呢?clearcaptprogdropsdprogsddrawnormu,n(8)clear//8個期望為10的正態隨機樣本gy=10+uregyscalars=7*(e(rmse))^2end***將上述抽樣試驗進行1000次,得到1000個均值和標準差simulates,reps(1000):sdtw(kdensity_s)(functiony=100*((chi2(7,x)-chi2(7,(x-0.01)))),rang(030))matau=invnorm(uniform(8,1000))y=10*+ub=C*ye=y-J*bs=e’est_matrix(“s”,s)svmatstw(kdensity_s)(functiony=chi(x,10,1/sqrt(8)),range(515))(六)F估計量(七)T估計量在上面的分布中,β和σ是未知的常參數,因而仍然無法確定估計量b的具體分布。怎么辦呢?能否在σ未知的情況下得到某個具體的分布?辦法是構造T值,T值是一個含有未知常參數β的估計量(因為b和S都是樣本的函數),而且T值的分布函數僅有樣本容量n唯一確定。注意到T值實際上也是樣本的一個函數,然而當總體服從正態分布時,T值成為一個僅與樣本容量有關的統計量。注意到上式中僅有一個未知常參數β,我們把這種統計量稱為樞柚量。四、區間估計區間估計的含義是:總體參數β(真值)被由樣本和置信水平構造的區間覆蓋住的概率。根據一個樣本的觀察值給出總體參數的估計范圍,并給出總體參數落在這一區間的概率t分布僅有一個參數,即樣本容量n,當n的大小被確定,分布即被決定。隨機變量T落在(-∞,-t0.025)和(+t0.025,+∞)內的概率為0.05,T落在(-t0.025,+t0.025)的概率為0.95。而T由n,b,S及β四個變量所決定。給定樣本,則n,b,S都是確定的,但樣本容量不變,而樣本變化,b和S會隨之變化,而β為未知參數,但β落在下面區間的概率為0.95大致意思是如果隨機抽取樣本容量相同(均為n)的樣本很多很多次,每次都計算出相應的S,b,代入上式計算出許許多多的區間,則所有區間中約有95%將包含總體參數β,有5個不包含β。真值約有95次穿過區間,但約有5次在區間兩個端點之外。對某一次抽樣來說,可信區間一旦形成,它要么包含總體參數,要么不包含總體參數,二者必居其一,無概率可言,因此所謂95%的可信度是針對可信區間的構建方法而言的。區間估計與點估計不同,它尋求一個區間,該區間以一定的概率保證真正的總體參數值包含在其中,當然,對于一個特定的樣本,它可能包含參數真值,也可能不包含。captprogdropbbprogbbdrawnormu,n(100)sds(10)dclear/*生成一個標準差o=10的正態隨機變量樣本,樣本容量為100*/gY=10+uquietlyregyend***將上述抽樣試驗進行100次,得到100個樣本均值mean和標準誤simulate_b_se,reps(100)nodots:bbgn=_n*在總體方差未知的前提下,用樣本標準差sd替代,需要借助t統計量gtlow=_b-invttail(99,0.025)*_se/sqrt(100)gthigh=_b+invttail(99,0.025)*_se/sqrt(100)*考察總體均值是否在子樣本的95%置信區間內,如不在則標記為1,否則為零gtsign=(tlow<5&thigh>5)*統計沒有包括總體均值的子樣本95%置信區間個數tabletsign*圖示twrcapsymthightlown,yline(5)||rcapsymthightlownifthigh<5|tlow>5在通常的研究中,我們只進行一次抽樣,只構造出一個區間,并推測這一個區間有95%的可能屬于包含總體參數的區間簇,有5%的可能屬于不包含總體參數的區間簇。五、假設檢驗真正的總體參數β是一個常數,但具體等于多少,卻是未知的。我們假設總體參數等于一個值β0=10,然而這個值卻是我們假設出來的,它也是一個常數。然后我們抽取一個樣本,計算后得到一個估計值b,這個估計值b是一個隨機變量。注意區別三個值β、β0,b。原假設為β=β0,對立假設為β!=β0。也就是說,我們的假設值可能正好等于原總體的參數值,也可能不等。想一想,你能準確猜測出真正的總體值嗎?另外,注意到在原假設與對立假設中,并不涉及到估計量。第一類錯誤:如果原假設正好成立,即原假設為真,則β=β0。然而即使我們做出了完全正確的假設,我們也只抽得了一個樣本,從這一個樣本中估計得到了樣本均值,并進一步得到了T值,這個T值可能落在發生概率非常?。?.5%)的兩個端點之外。這個小概率事件如果發生,我們就拒絕原假設,認為β!=β0,反之如果T值在95%的概率區間中間,則不能拒絕原假設。由于抽樣的偏誤,我們可能恰好在一次抽樣中得到一個過大或過小的T值,從而否定正確的原假設,這種錯誤叫做棄真錯誤,但是在原假設為真的前提下,發生這種錯誤的可能性只有5%。第二類錯誤:由于原假設只是我們的一個假設,我們并不真正知道總體參數的真實值,因此可能從一開始,我們的假設就錯誤了。由于這個錯誤的假設,我們會犯取偽的錯誤。若顯著性水平為,當真值的確為假設值時,就是作出正確判斷(即H0為真時接受H0,取真)的概率,此時有。而則為棄真的概率。而當假設為錯誤,即真值不等于假設值時,為犯第II類錯誤(即原假設為誤,接受原假設,取偽)的概率。則為作出正確判斷的概率(即原假設為假時,拒絕原假設的概率),又稱為檢驗的功效。以真值為橫軸,以為縱軸,可以得到一條曲線。這條曲線反映了當假設值偏離真值時,檢驗的功效如何變動:當參數的真值在假設值附近時,檢驗法的功效很低。犯第二類錯誤的概率很大。當n趨于無窮時,曲線成為T形,此時,納偽的的概率為0,檢驗的功效達到最高100%。情形1:總體均值已知,為u=10。但我們假裝不知道,卻做出了對總體均值正確的原假設,認為它等于u0=10,則抽樣進行假設檢驗如下drawnormx,n(100)m(10)sds(10)dclear*生成一個均值u=10,標準差o=10的正態隨機變量,作為研究總體quietlysumxdi"從樣本計算t統計值為:"(r(mean)-10)/(sqrt(100)*r(sd))di"根據t統計量臨界值為:"aserrorinvttail(99,0.025)diasresult"對這次實驗,拒絕還是接受?"由于我們通常只取一次樣,所以有可能碰巧得到的樣本正好是導致我們拒絕真的原假設的樣本。這時我們就會犯錯誤。然而,棄真錯誤的可能性比較小。在100次這樣的抽樣研究中,大概有5次左右。將上述試驗進行100次,統計一下有多少次拒絕,多少次接受?captprogdropbbprogbbdrawnormx,n(100)m(10)sds(10)dclearquietlysumxscalarref=(abs(sqrt(100)*(r(mean)-10)/r(sd))>invttail(99,0.025))*如果樣本統計量(t)值大于臨界值,則拒絕原假設一次jud=1,否則為0endsimulateref,reps(100):bbtab_sim//其中的1表示在100次中拒絕原假設的次數。情形2:總體均值已知,為u=10。但我們假裝不知道,并做出了對總體均值錯誤的原假設,如認為它等于u0=5,則抽樣進行假設檢驗如下captprogdropbbprogbbdrawnormx,n(100)m(10)sds(10)dclearquietlysumxscalarref=(abs(sqrt(100)*(r(mean)-5)/r(sd))>invttail(99,0.025))endsimulatejud,reps(100):bbtab_sim這時,我們100次地拒絕了原假設,認為原總體的均值不可能為5。drawnormu,n(100)sds(10)dcleargY=10+uregy顯著性:你和朋友來進行橫跨西伯利亞的越野車比賽,一個月后,你以一秒之差擊敗他,顯然你不能吹噓自己比他快。你可能受助于某些東西,或者只是隨機因素使然,別無其他。那一秒不夠顯著,沒有辦法據此得出什么結論?!白孕熊囼T手A比B優秀,因為他平常吃菠菜,而B吃豆腐,所在A在3000里的比賽中比B快了1秒”。六、計量模型的本質案例4-5:我們生來就偏好因果關系我們生來不會把不同的事情獨立開來看待,觀察A和B兩件事時,我們很難不假設是A造成B、B造成A,或者兩者彼此影響。我們會立即在其間建立因果關系。在感情上拒絕一項假說比接受它更難(即所謂的第一類錯誤和第二類錯誤)。候讓以前常和索羅斯打網球,有個周末,索羅斯在談話中表示非??磯暮笫?,還講出一連串復雜的道理,索羅斯顯然在市場中做空。幾天后,市場激漲,頻創新高。候讓擔心索羅斯可能賠錢,下次打球時就問他是否有所損失,索羅斯說:“我們大賺了一票,我改變了主意,不但回補空頭頭寸,而且還建立起很大的多頭頭寸”。20世紀80年代末,索羅斯給候讓2000萬美金去投機,候讓借此創立了一家交易公司。幾天后,索羅斯與候讓在共進午餐時聊到市場,索羅斯的態度變得相當冷談。之后索羅斯把錢全部撤回,沒做任何解釋。索羅斯這種真正的投機者與別人不一樣的地方,在于他們缺乏路徑依賴,完全不受過去行為的束縛,每一天都是一張白紙。要測試信念是否路徑依賴,有個簡單的方法。假設你擁有一幅畫,當初是以2萬美金買進的。由于藝術品市場欣欣向榮,現在這幅畫值4萬美金,如果你手頭上沒有這幅畫,你會依目前的市場價格買進嗎。如果一連串的觀念都以第一個觀念馬首是瞻,我們便稱其有路徑依賴。(一)因果關系與計量經濟學的任務人類對自己周圍的一切事物都充滿了好奇,孜孜不倦地探索和理解著這個神奇的世界??梢哉f,人類的認識是一個逐步深化的過程。首先是概念的辨識,從紛紜復雜的大千世界中抽離出一些關鍵的概念,在明確其內涵及外延的基礎上,使我們今天有了一個分類無比細致的世界,概念和名詞也因此多得要極厚的百科字典才能存載。比如性別是一個概念,年薪是一個概念,受教育年限是一個概念。而這些概念在數學公式中則被抽象為一些簡單的符號x、y、z。光有概念是遠遠不夠的,人們希望能夠對同一個概念有更深入的把握,因此概念需要量化,比如性別有男有女,工資有高有低,教育有文盲到博士的區別。在數學中,便表現為x和y的不同取值,如x=1表示男,x=0表示女,y=10000表示年薪1萬元。有了不同的概念,也有了對各種概念在量和程度上的不同認識,人們就希望能舉一反三,見一葉落而知天下秋。在這個探索過程中,函數是一個核心,它把多個變量聯系起來,使人可以由此及彼,見微知著;可能通過操控一些可控的變量來對不可控或難以直接操控的變量(往往目標)施加影響。比如未來的高收入是我們的目標,現在可以操控的是提高自己的能力和受教育水平,而受教育是要付出成本的,投入多少是最佳的呢?初中畢業?大學畢業?要不要上研究生?如果要做出定量的回答,顯然需要對于教育及教育回報的定量關系的深入認識。這種探索在數學上表現為函數y=f(x)。有了函數,人類的認識就有了很大的飛躍,追尋因果關系也因此成為研究的最主要任務,所謂因果關系探求,實質上是想要明白f(x)究竟是怎樣的?打開f(x)這個黑匣子并不容易,純粹從理論上的工作屬于數量經濟學的范疇,本文不再展開。我們僅假設有一個在理論上存在的函數關系:Y=f(x,β),其中β為常參數。函數關系Y=f(X,β)刻畫了Y如何伴隨著另一個變量X的變化而變化。假設x與y的關系是普遍存在的,但是在不同的環境條件下,β是不同的,在同樣的環境條件下β是真實存在的一個確定的常參數值?;貧w分析的任務就是通過在某個特定環境下收集數據,獲得β的最接近的一個估計值。換言之,就是要得到計量經濟學的總目標:得到一個最佳的估計量(估計量是一個函數,是一個對樣本進行運算的法則)。所謂最佳是針對這個法則而言的。這意味著,對于我們想探索的未知函數g(X,Y,|β)中的常參數而言,我們可以根據樣本得到最逼近β的估計值。估計量的最優性質在一系列的假設下得到,當這些假設不成立時,相應的特性也不成立,此時,需要退而求其次,獲得在放松后的條件下(通常更符合現實),更逼近未知常參數的估計值。(二)概率因果模式及計量模型的實質借用大家都熟悉的物理學例子,炮彈以初速度x和與水平軸成θ角離開地面,從發射點到落點的距離為d,根據牛頓定律可以得到(1)這似乎是一個不受限制的滿足因果律的函數關系,其中g為常參數,即重力加速度:固定發射角,給定一個初速度,就得到一個確定的距離。然后根據試驗得到的三個數據v,θ,d,我們就可以計算出重力加速度g=d/(v2sin2θ)然而實踐并非如此簡單,上述模型只是一個近似公式,是人類思維的發明,是一個理想化模型。這個理想化模型忽略了空氣阻力、氣壓變化以及初速度和發射角的不精確性。因此只能在一定限制條件下應用,即忽略掉的諸因素在我們可以接受的范圍內,我們才可以放心地進行這種簡化推測。但是無論無何,在現實中,我們通過某次實驗所計算出的g并不會正好等于9.8。同樣,如果做很多次實驗,根據每次的實驗結果來測算g,我們會得到許多不同的g。由于v和θ的不精確,以及炮彈在空氣中受到的擾動,在一次確定的發射中,測定的著彈點與發射點的距離記為di。這個di與按(1)式計算的理論結果必然存在不一致,換言之,單次實驗的結果看似確定的,但這種確定是事后的,事前它是不確定的,是隨機現象。因此,第i次實驗的事后結果可表達為:如果我們提出另外一個問題,既然單次實驗結果是隨機的,是事前不能確定的,當我們用同一個大炮在同一地點打出許多有相同初速度和發射角的炮彈時(注意,這也只是理想化狀態),這些炮彈落入第j個洞的概率是多少?或者問,這些炮彈的落點到發射點的距離的測量均值是多少?則這一問題不再有因果答案,只能給出一個隨機性的解釋,表現為概率因果模式。在這種情況下,看似隨機的結果卻又表現出確定性,其確定性表現為:“如果試驗次數足夠多,平均特性具有高度的確定性”。因此,同一個問題既可用確定的因果方式也可用概率的方式進行分析。有人可能會說,這本來就是個確定性的問題,盡管我們不知道,但炮彈總有其精確初速度和發射角,如果我們知道它,就能準確知道它落入洞的位置,因此,我們之所以需要概率解釋是因為我們對一些因素的無知。對這一爭議的回答是:科學家并不關心什么是真實的,只關心什么是他們能夠觀測到的。這也是后現代關于真實的觀點。愛因斯坦說:“數學定律不能百分之百地確實地用在現實生活里,能百分之百確實地用數學定律描述的,就不是現實生活.”,如果我們接受,事實上我們必須接受,科學理論不是自然規律的發現,而是人類思維的發明,那么,因果性和隨機之間,或者確定性和或然性之間是沒有抵觸的。由于Y=d在事前無法預測,因此它是隨機的。通常我們將X也視為隨機的(當然在控制實驗中是非隨機的,但計量經濟學處理的社會經濟變量通常都是非試驗非可控的)。而模型的實質是制約因變量Y與自變量X的聯合分布的集合。模型是滿足假定條件的聯合分布。在這一章中我們先假設X為非隨機的。令得到在上述模型中,X為非隨機變量,是事先給定的,u和y為隨機變量,其中y是可觀測的,而ε也為隨機變量,但是不可觀測的,β為未知常參數,是我們想估計的未知參數。(三)模擬實驗現在,給定初速度vi,發射角θ,在同樣的條件下發射n次炮彈。每一次都會受到微小因素的干擾而產生誤差ui。這些誤差將服從某種分布,設其分布的密度函數為f(u|x=x0),因為則給定初速度x1和發射角θ,落點距離y1服從以x1和θ為條件的分布f(y|x1,θ)。如右圖如果初速度改變為xk,保持發射角不變,得到不斷改變初速度,將得到若干y對應于x的分布如圖。我們希望通過觀察(實驗)來確定出兩個常參數,并獲得這個函數。于是,我們固定發射角做實驗,通過不斷改變初速度(改變10次,x=1-10),得到10000個數據(模擬數據bomb。并對每個x求y求條件均值E(d|v),得到下表。clearsetobs10000genx=int((_n-0.5)/1000)+1genu=9*invnorm(uniform())geny=x^2/9.8*sin(_pi/6)+utablex,c(meany)format(%5.2f)x
12345678910m(y|x).13.47.76.581.152.532.613.444.435.35下面,我們來做進一步的模擬實驗。首先,作為一個基準,考慮一種最理想狀態,當發射角為45度,初速度?。?,10)之間的正整數,沒有測量誤差,重力加速度恒定,空氣阻力等炮彈飛行中的擾動產生的條件誤差服從均值為零,方差為0.09的正態分布,于是可以根據牛頓定律,可生成一個總體如下。七、古典線性回歸模型(一)期望與方差先把X看做是非隨機的,則X為一個固定的常矩陣,這種情形通常在設計實驗中出現,比如第一塊地施1kg化肥,第二塊實驗地施2kg化肥,…。當X為固定的常數矩陣時,也為一矩陣,不妨設為因此有clearmatau=invnormal(uniform(1,8))uniformseed(1)//生成偽隨機變量的種子X=uniform(2,8)beta=(2,10)y=X*beta:+uC=invsym(X’X)X’b=C*y可見b為一隨機向量,其期望為要使b為無偏估計量,則必須滿足條件Eu=0,即隨機向量b的方差陣為顯然,要獲得b的方差陣,必須首先假定誤差u的方差,在一個非常嚴格的假設,即誤差兩兩不相關,而且同方差的條件下,有(二)估計量的分布僅假設誤差的期望和方差還無法確定最小二乘估計量b的分布,要獲得其分布,必須對誤差的分布做出假設(即限制條件),當誤差向量服從正態分布,并且前述的期望和方差假設也成立時,因為正態分布由期望和方差確定,并且正態隨機向量的線性組合仍然服從正態分布,因此隨機向量b也服從如下的正態分布:由于正態分布具有斷尾性,因此服從正態分布的隨機向量,其任意一個元素也服從正態分布,(三)t統計量與T檢驗根據點估計的值,可以計算出Y的擬合值將觀察值與擬合值相減,得到的值定義為殘差e(注意與誤差相區別),即因為M為確定的常矩陣,My是樣本的線性組合,因此e實際上也是一個估計量,進一步,我們將殘差的平方和除以一個常參數σ2,得到顯然,上式也是一個估計量,可以證明,該估計量服從自由度為n-k的卡方分布。證明:證明非常簡單,因為由于bj服從均值為βj的正態分布,根據t分布的定義,可以得到(四)F統計量與F檢驗在上述估計量中,只有一個唯一的未知常參數βj,而相應的t分布卻是唯一確定的,因此可以構造出置信區間,該置信區間將以一定的可能性能夠將未知常參數覆蓋在內。如果我們假設模型沒有任何解釋力,即所有的β=0,則可以利用F檢驗,推理如下:從X為非隨機變量到X為隨機變量,只需要將X視為條件,反復運用重期望定理即可得到上述結論。附:矩估計與極大似然估計(一)矩估計矩法的核心思想:總體矩=樣本矩總體矩,如正態分布的總體一階原點矩為u,二階中心矩為σ2,二點分布的期望為p,泊松分布的期望為λ。總體矩由隨機變量的取值及其對應的概率PDF加權求和得到。樣本矩,對于IID,均值對應于一階原點矩。由于是IID,而且是簡單隨機抽樣,因此,概率高的取值被抽中的可能性高,概率低的被抽中的可能性低,而且其頻率近似等于其概率,因此對樣本取值依頻率加權求和得到的結果,就近似等于期望。^u=-x。另一方面,樣本值的經驗分布EDF是CDF的一致估計,因此,總體矩=樣本矩。EDF是隨機變量X的CDF的一致估計。當xi獨立同分布時,由于隨機變量Y=I(Xi<x)的期望為F(x),因此,正好為Y的均值,服從大數定理,所以是F(x)的一致估計量。矩法估計當然不限于期望=樣本均值,相應地還有總體方差=樣本方差;總體K階原點矩=樣本K階原點矩;總體K階中心矩=樣本K階中心矩利用矩法估計總體參數時不需要知道總體的PDF或CDF,只需要知道用未知參數表達的總體矩即可,因此具有更廣泛的運用性。矩法的一般步驟:從總體矩入手將待估參數表示成總體矩的函數θ=g(EX,Var(X))。用樣本矩m和s分別替換g中的總體矩EX=m,Var(X)=s,則估計值θ*=g(EX,var(X))=g(m,s)=g(x1,x2,…,xn)假設1:(二)極大似然估計已知分布類型,不知分布參數。例:遇到三個人,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西方國家福利制度變革的歷史考察試題及答案
- 環境保護與公共政策的互動機制研究試題及答案
- 西方國家的基層治理模式探討試題及答案
- 關于公共政策的理論框架分析試題及答案
- 對話性公共政策的案例研究與評估試題及答案
- 分析西方政治制度中的不同利益關系試題及答案
- 激發潛能的軟件設計師考試試題及答案
- 探討西方政治制度對民主的影響試題及答案
- 項目管理中的績效考核與評價試題及答案
- 機電系統故障分析題及答案
- DB31/ 506-2020集成電路晶圓制造單位產品能源消耗限額
- 美甲店店員分成協議書
- 2025年上海市春考語文試卷(較為完整版暫無答案)
- TFDS系統介紹(濟南)
- 滾子鏈鏈輪的基本參數和主要尺寸
- 青海省基本醫療保險門診特殊病慢性病病種待遇認定表
- 幼兒園組織構架圖-及工作流程
- 維氏硬度計作業指導書
- 酒店各部門員工考核標準評分表
- JJG 162-2019飲用冷水水表 檢定規程(高清版)
- 輸出軸零件的機械加工工藝規程
評論
0/150
提交評論