




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
多元統計分析邏輯回歸第一頁,共四十二頁,2022年,8月28日概述現實生活中,有很多諸如需要確定客戶買或不買某種商品、銀行客戶信用好或不好等情況這時,某個事件以多大概率出現和哪些影響量決定該概率的問題尤為重要如果用狀態1(購買)和0(不買)的因變量(Y)表示事件,則事件發生的概率P有如下關系:P(y=0)+P(y=1)=1第二頁,共四十二頁,2022年,8月28日由于這類問題的因變量是類別變量,無法應用回歸方程來解決邏輯回歸是通過回歸方程,確定概率的期望值一種通過分析影響因素,來得到某種結果的概率分為二項邏輯回歸和多項邏輯回歸第三頁,共四十二頁,2022年,8月28日問題因變量自變量選擇銷售方式兩組:銷售代表、旅行推銷員客戶數、產品可替代性、拜訪次數等19個變量職場新人從事與專業相關的工作兩組:畢業半年后從事與專業相關工作、不相關工作性別、學制、住房情況、專業、職業培訓等15個變量公民的選舉行為三組:聯盟黨、社民黨、民主黨政治態度、民主滿意度、工會會員、宗教團體等影響嬰兒出生體重的因素兩組:體重正常的嬰兒、體重偏輕的嬰兒年齡、種族、孕期檢查次數第四頁,共四十二頁,2022年,8月28日相同點不同點邏輯回歸都屬于結構檢驗法。以所觀察的影響量作為自變量,通過回歸方程計算權重,觀察該權重決定個體實際屬于某組的概率0/1事件也可看做是兩組判別。多元事件同理邏輯回歸的前提條件較少,故回歸結果更可靠;邏輯回歸的目的根據經驗觀察結果推導事件發生概率;判別分析是為了獲得分類結果判別分析第五頁,共四十二頁,2022年,8月28日建立邏輯回歸方程例子:超市的銷售主管想知道,顧客收入水平是否對購買新的高級黃油產品有影響。為此,他選擇了12位顧客,調查他們的月凈收入(x)及是否購買了該類黃油產品購買記為{y=1},未購買記為{y=0}調查結果如下:第六頁,共四十二頁,2022年,8月28日值表事件收入140001420016000152001550015100148000270001800032000250002600購買黃油=-0.749+0.000336×收入第七頁,共四十二頁,2022年,8月28日邏輯回歸不是要估計二元變量的觀察值,而是要明確這些觀察值的出現概率通常把狀態{y=1}看作“事件y發生”,而狀態{y=0}為“事件不發生”假設存在一個非經驗觀察到的隱變量z,它能對應自變量的狀態xj給出因變量y的二元水平第八頁,共四十二頁,2022年,8月28日y通過隱變量與xj建立聯系:邏輯函數:(1)(2)(1)、(2)構成邏輯回歸方程。z值稱為Logit第九頁,共四十二頁,2022年,8月28日第十頁,共四十二頁,2022年,8月28日分析過程邏輯回歸分析可分為五個步驟:(1)建模(2)估計邏輯回歸函數(3)解釋回歸系數(4)檢驗模型整體(5)檢驗特征變量第十一頁,共四十二頁,2022年,8月28日(1)建模邏輯回歸分析的前提也是使用者首先根據實施邏輯思考確定,哪些事件應作為可能的因變量類型,哪些影響量決定事件類型的概率,從而提出關于自變量和因變量可能關系的假設自變量和事件{y=1}的出現概率間的連帶關系假設第十二頁,共四十二頁,2022年,8月28日二元邏輯回歸:因變量是二元的,即只有0和1兩個水平;因變量多于兩類的,多元邏輯回歸分析自變量也稱為共變量,可以是基數測度和非基數測度,也可“混合”xj自變量線性組合z指數連接eZ邏輯連接P(y=1)聯合影響量Logit可能性比P(y=1)/P(y=0)出現概率第十三頁,共四十二頁,2022年,8月28日人造黃油購買者{y=1}人造黃油未購買者{y=0}受訪者k可涂抹性X1k保質期X2k受訪者k可涂抹性x1k保質期x2k123456789101112236434325334345427546635131415161718192021222324547345456566435342257346數據第十四頁,共四十二頁,2022年,8月28日(2)估計邏輯回歸函數通常用極大似然估計法估計模型的參數,目的是使觀察到的調查數據的概率最大,來確定反映自變量權重的邏輯回歸模型參數bj若對每個觀察個體k考慮如下關系式:第十五頁,共四十二頁,2022年,8月28日Newton-Raphson算法合成一個方程:似然函數:求解:判別準則:Pk>0.5,把個體分入{y=1};否則分入{y=0}第十六頁,共四十二頁,2022年,8月28日確定zk值(Logit)的回歸方程:zk×可涂抹性k+1.119×保質期k將原始數據代入回歸方程Y=1Y=0第十七頁,共四十二頁,2022年,8月28日(3)解釋回歸系數自變量xj與概率Pk(y=1)間不存在線性關系,導致回歸系數間不能相互比較,無法直接解釋回歸系數第十八頁,共四十二頁,2022年,8月28日常數項只影響邏輯函數的水平位置。為正時,邏輯函數左移;為負時,邏輯函數右移回歸系數影響邏輯函數的走向。回歸系數較大時,概率值很快接近邏輯函數的邊緣負的回歸系數使事件{y=1}的概率隨x值增大而減小,而正回歸系數則使事件{y=1}的概率隨x值增大而增大第十九頁,共四十二頁,2022年,8月28日邏輯回歸的發生比:邏輯回歸的Logit:z=Logit=ln(發生比)第二十頁,共四十二頁,2022年,8月28日“可涂抹性”的回歸系數為負,該變量降低了人造黃油的購買概率;“保質期”的回歸系數為正,它對購買概率產生正向影響;若自變量增加1單位,則有利于事件{y=1}的可能性比(發生比)擴大ebj倍發生比說明了變量對出現概率的影響程度,發生比也稱為效應系數第二十一頁,共四十二頁,2022年,8月28日正、負回歸系數對事件{y=1}的出現概率的影響:b效應系數exp(b)Logit(z)發生比[P(y=1)/P(y=0)]P(y=1)b>0eb>1增加b增大eb倍增加b<0eb<1增加b增大eb倍降低第二十二頁,共四十二頁,2022年,8月28日(4)檢驗模型整體需要回答兩個問題:參數估計在整體中能多有效地描述定義的回歸模型?是否存在極端觀察個體,應把它看作離群者剔除掉,還是由于其經常出現而改變模型?回歸方程的評價指標:基于對數似然函數的評價;偽R2統計量;分類結果的評價;第二十三頁,共四十二頁,2022年,8月28日似然比值檢驗(LikelihoodRatioTest)該方法將考慮所有解釋變量最大的LL值與所有自變量的回歸系數都為0且僅考慮常數項時所得出的LL值比較若兩偏差的絕對差較小,則自變量對區分y水平的貢獻小;若偏差絕對差較大,則認為自變量的解釋能力強;考慮所有解釋變量時LL最大值給定數據組的零模型的LL最大值LLvLL0第二十四頁,共四十二頁,2022年,8月28日似然比值檢驗(LR檢驗)的假設:H0:所有回歸系數都等于0H1:所有回歸系數都不等于0零模型和完整模型的偏差作為檢驗統計量,它近似服從自由度為J(自變量個數)的卡方分布在本例中,LL0=30.498,LLv=15.818,卡方值為14.68;卡方表中值5.99(自由度2,α=0.05),故模型是顯著的第二十五頁,共四十二頁,2022年,8月28日偽R2統計量偽R2統計量試圖量化回歸模型中已解釋“變化”比例;通常McF-R2值達到0.2或0.4以上就已認為模型擬合度良好;LR檢驗回答了模型顯著性以及結果能夠運用到總體的問題,McF-R使自變量的判別能力總和可用數值表示,并可在不同模型間相互比較第二十六頁,共四十二頁,2022年,8月28日Cox&Snell-R2:L0:零模型的似然LV:完整模型的似然K:樣本容量第二十七頁,共四十二頁,2022年,8月28日Nagelkerke-R2:該值大于0.5時認為模型解釋能力非常好第二十八頁,共四十二頁,2022年,8月28日分類結果評價將由自變量水平0和1表示的實際觀察組屬性與由回歸方程算出的概率相比較通常使用概率0.5作為分類的判別值把出現概率Pk(y=1)>0.5的個體分入人造黃油的購買者(M),其他分入未購買者(N)第二十九頁,共四十二頁,2022年,8月28日分類矩陣(Confusion-Matrix)觀察值預測值購買與否百分比校正購買不購買購買不購買總百分比10221083.383.383.3判對比例(hitratio)=判對數目/總數=20/24=0.833第三十頁,共四十二頁,2022年,8月28日如果樣本容量允許,把隨機樣本分成兩個子樣本:一個分析樣本和一個檢驗樣本(Holdout-sample)。分析樣本用于估計邏輯回歸函數,然后根據此函數將檢驗樣本中的元素分類,并計算判對比率;第三十一頁,共四十二頁,2022年,8月28日PressQ檢驗該檢驗統計量服從自由度為1的卡方分布取α=0.05,查得臨界值為3.84,故該分類結果與隨機分類結果有顯著差別第三十二頁,共四十二頁,2022年,8月28日重要模型擬合度評價指標總結第三十三頁,共四十二頁,2022年,8月28日離群者診斷除了說明邏輯回歸方程的整體擬合度外,單個觀察個體對模型整體有效性有何作用也很重要邏輯估計的模型關系與調查數據擬合度不佳的基本原因有兩個:模型不合適;存在許多個體(觀察值),不具有模型所描述的關系,并由于其特殊的變量水平明顯偏離結果;第三十四頁,共四十二頁,2022年,8月28日對于第二種情況,通過確定每個個體的單獨殘差可說明在觀察中是否存在“離群者”,對個體k殘差如下:通常認為殘差絕對值大于0.5(兩組情況下)為離群者,并導致分類錯誤為了更好地辨認出此類離群者,采用一種加權方法,標準化殘差:第三十五頁,共四十二頁,2022年,8月28日第三十六頁,共四十二頁,2022年,8月28日對第三位受訪者,他購買了人造黃油{y=1},根據他的評價(可涂抹性=6,保質期=5),用估計出來的邏輯方程計算出購買概率為0.073,其標準化殘差值為3.589,明顯將該受訪者分類錯誤必須深入分析離群者的情況,以解釋極端位置的原因,通常考慮如下原因:(1)受訪者回答問題的方式反常,把該觀察值去除;(2)大的殘差值表明模型的解釋能力差,模型中未考慮重要影響量,需擴展或修正模型第三十七頁,共四十二頁,2022年,8月28日(5)檢驗特征變量
似然比檢驗LR檢驗也可用于與簡約模型的比較。分別令一個回歸系數為0,構建不同的簡約模型,再寫出完整模型(LLV)和一個簡約模型(LLR)的-2倍對數似然之差相應的零假設為:H0:回歸系數bj的效應為0;H1:回歸系數bj的效應不為0第三十八頁,共四十二頁,2022年,8月28日完整模型(LLV)和一個簡約模型(LLR)的-2倍對數似然之差所形成的檢驗統計量服從卡方分布,自由度為兩模型參數個數之差。若僅檢驗一個變量,則自由度等于1第三十九頁,共四十二頁,2022年,8月28日Wald統計量分母是bj的標準差W基本服從自由度為1的卡方分布回歸系數標準誤差Walddf顯著水平可涂抹性保質期常數項-1.9431.1193.5280.7980.5862.3385.9243.6452.2761110.01
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 皖豫聯盟體2025屆物理高二下期末經典試題含解析
- 新疆烏魯木齊市天山區兵團第二中學2024-2025學年高二下數學期末教學質量檢測模擬試題含解析
- 部隊藥品及疫苗采購及倉儲服務合同
- 某自然博物館插班生入學協議及自然科學教育服務合同
- 倉儲企業倉單質押貸款業務合同范本
- 車輛質押貸款及售后服務合同
- 2024年攀枝花市仁和區向招考社區工作者筆試真題
- 簡版房屋租賃合同(17篇)
- 湖南中煙工業有限責任公司招聘考試真題2024
- 能源知識競賽復習測試有答案(一)
- 履約考核辦法附件
- 2025年小學一年級語文考試趣味試題及答案
- 社會科學領域課題研究報告范文
- 生物工程細胞培養技術試題
- 2024年山東棗莊技師學院招聘考試真題
- 靜脈采血室工作制度
- 液壓缸設計模板
- 2024年全國高中數學聯賽(四川預賽)試題含答案
- 2024北京西城區初一(下)期末道法試題和答案
- 《基于STM32單片機健康監測模塊的設計與實現》7200字(論文)
- 靜脈留置針留置護理
評論
0/150
提交評論