




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1目錄線性回歸案例邏輯回歸23線性回歸1邏輯回歸案例42房屋應用做一個房屋價值的評估系統,一個房屋的價值來自很多地方,比如說面積、房間的數量(幾室幾廳)、地段、朝向等等,這些影響房屋價值的變量被稱為特征(feature) 。在此處,為了簡單,假設我們的房屋就是一個變量影響的,就是房屋的面積。假設有一個房屋銷售的數據如下:3線性回歸及其模型線性回歸,是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。其表達形式為 y = wx+e,e為誤差服從均值為0的正態分布。 wj是系數,W就是這個系數組成的向量,它影響著不同維度的j(x)在回歸函數中的影響度,比如說對
2、于房屋的售價來說,房間朝向的w一定比房間面積的w更小。(x)可以換成不同的函數,不一定要求(x)=x假設特征和結果都滿足線性。收集的數據中,每一個分量,就可以看做一個特征數據。每個特征至少對應一個未知的參數。這樣就形成了一個線性模型函數,向量表示形式:4回歸問題的常規步驟p 尋找模型函數;p 構造J函數(損失函數);p 最小化J函數并求得回歸參數(w)5線性回歸的損失函數誤差最小。模型與數據差的平方和最小:最小二乘法梯度下降法模型函數:損失函數6線性回歸的兩個用途p 如果目標是預測或者映射,線性回歸可以用來對觀測數據集的和X的值擬合出一個預測模型。當完成這樣一個模型以后,對于一個新增的X值,在
3、沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出一個y值。這是比方差分析進一步的作用,就是根據現在,預測未來。雖然,線性回歸和方差都是需要因變量為連續變量,自變量為分類變量,自變量可以有一個或者多個,但是,線性回歸增加另一個功能,也就是憑什么預測未來,就是憑回歸方程。這個回歸方程的因變量是一個未知數,也是一個估計數,雖然估計,但是,只要有規律,就能預測未來。p 給定一個變量y和一些變量X1,.,Xp,這些變量有可能與y相關,線性回歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的Xj,并識別出哪些Xj的子集包含了關于y的冗余信息。7目錄線性回歸案例邏輯回歸23線性回歸1
4、邏輯回歸案例48線性回歸案例分析案例9目錄線性回歸案例邏輯回歸23線性回歸1邏輯回歸案例4案例引入在致癌因素的研究中,我們收集了若干人的健康記錄,包括年齡、性別、抽煙史、日常飲食以及家庭病史等變量的數據。響應變量在這里是一個兩點(0-1)分布變量,Y=1(一個人得了癌癥),Y=0(沒得癌癥)。如果我們建立一般線性模型:) 1.(.(Y)E22110kkXXX10模型解釋因為Y只能取0或1,而 的取值是連續的。顯然不能用 來預測因變量 Y 。我們注意到,對于0-1型變量, E(Y)=P(Y=1)=p因而,我們似乎可以用 來預測Y=1的概率,即:(Y)E(Y)E(Y)E)2.(.p22110kkX
5、XX11概率與自變量之間的關系圖形往往是一個概率與自變量之間的關系圖形往往是一個S型型曲線曲線概率與自變量之間的關系曲線模型解釋12模型解釋我們可以通過對P進行一種變換(logit變換) logit(p)= ln(p/(1-p)使得logit(p)與自變量之間存在線性相關的關系。)3.()(logit1ln22110kkXXXppp)(exp11)exp(1)exp(110110110kkkkkkXXXXXXp13同時,經過變換得到的模型也解決了(同時,經過變換得到的模型也解決了(2 2)中,概率的預測值)中,概率的預測值可能是可能是0,10,1之外的數的缺陷。之外的數的缺陷。(3 3)式建立
6、的模型,我們稱為)式建立的模型,我們稱為logisticlogistic模型模型(邏輯回歸邏輯回歸模模型)。型)。模型解釋14最終,我們可能關心的是根據自變量的值來對最終,我們可能關心的是根據自變量的值來對Y的取值的取值0或或1進進行預測。而我們的邏輯回歸模型得到的只是關于行預測。而我們的邏輯回歸模型得到的只是關于PY=1|x的的預測。預測。但是,我們可以根據模型給出的但是,我們可以根據模型給出的Y=1的概率(可能性)的大小的概率(可能性)的大小來判斷預測來判斷預測Y的取值。的取值。一般,以一般,以0.5為界限,預測為界限,預測p大于大于0.5時,我們判斷此時時,我們判斷此時Y更可更可能為能為
7、1,否則認為,否則認為Y=0。1516邏輯回歸Logistic回歸與多重線性回歸實際上有很多相同之處,最大的區別就在于它們的因變量不同,其他的基本都差不多。正是因為如此,這兩種回歸可以歸于同一個家族,即廣義線性模型(generalizedlinear model)。Logistic回歸主要在流行病學中應用較多,比較常用的情形是探索某疾病的危險因素,根據危險因素預測某疾病發生的概率,等等。例如,想探討胃癌發生的危險因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。這里的因變量就是是否胃癌,即“是”或“否”,自變量就可以包括很多了,例如年齡、性別、飲食習慣
8、、幽門螺桿菌感染等。自變量既可以是連續的,也可以是分類的。17邏輯回歸的IIA效應邏輯回歸的“Independent and irrelevant alternatives”假設,也稱作“IIA效應”,指Logit模型中的各個可選項是獨立的不相關的。如:市場上有A,B,C三個商品相互競爭,分別占有市場份額:60%,30%和10%,三者比例為:6:3:1一個新產品D引入市場,有能力占有20%的市場如果滿足IIA假設,各個產品獨立作用,互不關聯:新產品D占有20%的市場份額,剩下的80%在A、B、C之間按照6:3:1的比例瓜分,分別占有48%,24%和8%。如果不滿足IIA假設,比如新產品D跟產品B幾乎相同,則新產品D跟產品B嚴重相關:新產品D奪去產品B的部分市場,占有總份額的20%,產品B占有剩余的10%,而產品A和C的市場份額保持60%
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人力資源2025年工作效率提升計劃
- 2025年國際貿易理論學習計劃
- 企業創始人的課件針對員工
- 2025年第三屆國學常識知識競賽問答題庫及答案解析(共90題)
- 2025年物業公司應急管理工作總結范文
- 學前教育評估與反思總結范文
- 小學語文學生心理健康教育心得體會
- 2025年國際交流后勤服務計劃
- 2025小學數學新課標教學反思心得體會
- 票據質押業務合規審查流程
- 《服務營銷雙主動》課件
- 采油工程試題及答案
- 小學科學閱讀試題及答案
- 找最小公倍數案例北師大五年級下冊數學
- 基因組學在臨床的應用試題及答案
- 公司法公章管理制度
- 統編版2024-2025學年語文六年級下冊期中測試卷試題(有答案)
- 演出經紀人員資格備考資料2025
- 企業供應商管理制度
- 新生兒早產兒個案護理
- 2024-2025學年人教版初中物理八年級下冊期中檢測卷(第七章-第九章)
評論
0/150
提交評論