數(shù)據(jù)挖掘與數(shù)據(jù)分析 第四章課后習(xí)題及答案_第1頁(yè)
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第四章課后習(xí)題及答案_第2頁(yè)
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第四章課后習(xí)題及答案_第3頁(yè)
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第四章課后習(xí)題及答案_第4頁(yè)
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第四章課后習(xí)題及答案_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章課后習(xí)題答案詳解1.邏輯回歸如何從線性回歸演化而來(lái)?答:監(jiān)督學(xué)習(xí)中,如果預(yù)測(cè)的變量是離散的,我們稱其為分類,如果預(yù)測(cè)的變量是連續(xù)的,我們稱其為回歸。線性回歸是利用數(shù)理統(tǒng)計(jì)中回歸分析,來(lái)確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。回歸分析中,如果只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。在統(tǒng)計(jì)學(xué)中,線性回歸(LinearRegression)是利用稱為線性回歸方程的最小平方函數(shù)對(duì)一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。邏輯回歸與線性回歸都是一種廣義線性模型。邏輯回歸假設(shè)因變量y服從伯努利分布。邏輯回歸和線性回歸首先都是廣義的線性回歸,經(jīng)典線性模型的優(yōu)化目標(biāo)函數(shù)是最小二乘,而邏輯回歸則是似然函數(shù)。線性回歸假設(shè)因變量y服從高斯分布。因此與線性回歸有很多相同之處,去除Sigmoid映射函數(shù)的話,邏輯回歸算法就是一個(gè)線性回歸。可以說(shuō),邏輯回歸是以線性回歸為理論支持的,但是邏輯回歸通過(guò)Sigmoid函數(shù)引入了非線性因素,因此可以輕松處理0/1分類問(wèn)題。2.如何利用邏輯回歸解決多分類任務(wù)?答:在現(xiàn)實(shí)世界中,需要解決的問(wèn)題往往不是二分類問(wèn)題,而是多分類問(wèn)題。針對(duì)多分類將有三種解決方法:(1)OVO(onevsone)One-Vs-One是一種相對(duì)穩(wěn)健的擴(kuò)展方法。某個(gè)分類算法有N類,將某一類和另一類比較作為二分類問(wèn)題,總共可分為Cn假設(shè)我們要解決一個(gè)分類問(wèn)題,該分類問(wèn)題有三個(gè)類別,分別用△,□和×表示,每個(gè)實(shí)例(Entity)有兩個(gè)屬性(Attribute),如果把屬性1作為X軸,屬性2作為Y軸,訓(xùn)練集(TrainingDataset)的分布可以表示為下圖2-1:圖2-1訓(xùn)練集的分布圖2-2三角形與x訓(xùn)練得出的分類器三角形與x訓(xùn)練得出的分類器如上圖2-2所示。三角形與正方形訓(xùn)練的出的分類器如下圖2-3所示。圖2-3三角形與正方形訓(xùn)練的出的分類器圖2-4正方形與x訓(xùn)練得出的分類器正方形與x訓(xùn)練得出的分類器如上圖2-4所示。假如我們要預(yù)測(cè)的一個(gè)數(shù)據(jù)在圖中紅色圓圈的位置,那么第一個(gè)分類器會(huì)認(rèn)為它是x,第二個(gè)分類器會(huì)認(rèn)為它偏向三角形,第三個(gè)分類器會(huì)認(rèn)為它是x,經(jīng)過(guò)三個(gè)分類器的投票之后,可以預(yù)測(cè)紅色圓圈所代表的數(shù)據(jù)的類別為x,如下圖2-5所示。圖2-5預(yù)測(cè)紅色圓圈所代表的數(shù)據(jù)的類別為x這一方法也有顯著的優(yōu)缺點(diǎn),其缺點(diǎn)是訓(xùn)練出更多的分類器,會(huì)影響預(yù)測(cè)時(shí)間。其優(yōu)點(diǎn)也很明顯,它在一定程度上規(guī)避了數(shù)據(jù)集不均衡的情況,性能相對(duì)穩(wěn)定,并且需要訓(xùn)練的模型數(shù)雖然增多,但是每次訓(xùn)練時(shí)訓(xùn)練集的數(shù)量都降低很多,其訓(xùn)練效率會(huì)提高。(2)OVR(OneVsRest)某個(gè)分類算法有N類,將某一類和剩余的類比較作為二分類問(wèn)題,N個(gè)類別進(jìn)行N次分類,得到N個(gè)二分類模型,給定一個(gè)新的樣本點(diǎn),求出每種二分類對(duì)應(yīng)的概率,概率最高的一類作為新樣本的預(yù)測(cè)結(jié)果。還是以下圖為例:假設(shè)我們要解決一個(gè)分類問(wèn)題,該分類問(wèn)題有三個(gè)類別,分別用△,□和×表示,每個(gè)實(shí)例(Entity)有兩個(gè)屬性(Attribute),如果把屬性1作為X軸,屬性2作為Y軸,訓(xùn)練集(TrainingDataset)的分布可以表示為下圖2-6:圖2-6訓(xùn)練集的分布圖2-7第一個(gè)分類器比如第一步,我們可以將三角形所代表的實(shí)例全部視為正類,其他實(shí)例全部視為負(fù)類,得到的分類器如上圖2-7所示:圖2-8第二個(gè)分類器圖2-9第三個(gè)分類器同理我們把X視為正類,其他視為負(fù)類,可以得到第二個(gè)分類器如上圖2-8。最后,第三個(gè)分類器是把正方形視為正類,其余視為負(fù)類,如上圖2-9所示。對(duì)于一個(gè)三分類問(wèn)題,我們最終得到3個(gè)二元分類器。在預(yù)測(cè)階段,每個(gè)分類器可以根據(jù)測(cè)試樣本,得到當(dāng)前正類的概率。選擇計(jì)算結(jié)果最高的分類器,其正類就可以作為預(yù)測(cè)結(jié)果。優(yōu)點(diǎn):普適性還比較廣,可以應(yīng)用于能輸出值或者概率的分類器,同時(shí)效率相對(duì)較好,有多少個(gè)類別就訓(xùn)練多少個(gè)分類器。缺點(diǎn):很容易造成訓(xùn)練集樣本數(shù)量的不平衡,尤其在類別較多的情況下,經(jīng)常容易出現(xiàn)正類樣本的數(shù)量遠(yuǎn)遠(yuǎn)不及負(fù)類樣本的數(shù)量,這樣就會(huì)造成分類器的偏向性。(3)Softmax在二元的邏輯回歸模型中,我們用Sigmoid函數(shù)將一個(gè)多維數(shù)據(jù)(一個(gè)樣本)映射到一個(gè)0-1之間的數(shù)值上,通過(guò)Softmax函數(shù)可以讓一個(gè)樣本映射到多個(gè)0-1之間的數(shù)值。 使所有概率之和為1,是對(duì)概率分布進(jìn)行歸一化。定義了新的假設(shè)函數(shù)之后,我們要得到其對(duì)應(yīng)的代價(jià)函數(shù)。 其中1{·}的取值規(guī)則為大括號(hào)內(nèi)的表達(dá)式為真時(shí),取1,為假時(shí)取0.對(duì)該代價(jià)函數(shù)求最優(yōu)解同樣可以使用如梯度下降之類的迭代算法,其梯度公式如下: 有了偏導(dǎo)數(shù),就可以對(duì)代價(jià)函數(shù)進(jìn)行優(yōu)化,最終求解。本質(zhì)上講,Softmax回歸就是logistic回歸進(jìn)行多分類時(shí)的一種數(shù)學(xué)拓展,在處理一些樣本可能叢屬多個(gè)類別的分類問(wèn)題是,使用onevsone或onevsall有可能達(dá)到更好的效果,Softmax回歸適合處理一個(gè)樣本盡可能屬于一種類別的多分類問(wèn)題。利用R中自帶的其他數(shù)據(jù)集進(jìn)行邏輯回歸模型的構(gòu)建答:使用R中數(shù)據(jù)集iris來(lái)舉例,該數(shù)據(jù)集包含150種鳶尾花的信息,每50種取自三類鳶尾花種之一(setosa,versicolour或virginica)。數(shù)據(jù)集中各個(gè)參數(shù)的含義如下表1所示:表1iris數(shù)據(jù)集參數(shù)說(shuō)明符號(hào)符號(hào)說(shuō)明Sepal.Length花萼長(zhǎng)度Sepal.Width花萼寬度Petal.Length花瓣長(zhǎng)度Petal.Width花瓣寬度Species花的種類類#查看數(shù)據(jù)信息head(iris)輸出:Sepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies15.13.51.40.2setosa24.93.01.40.2setosa34.73.21.30.2setosa44.63.11.50.2setosa55.03.61.40.2setosa65.43.91.70.4setosa對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述:#對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述summary(iris)輸出:邏輯回歸:a<-which(iris$Species=="virginica")head(a)輸出:101102103104105106#取出其他的兩類myir<-iris[-a,]#隨機(jī)抽樣s<-sample(100,80)#排序s<-sort(s)#訓(xùn)練集——ir_train<-myir[s,]head(ir_train)輸出:#測(cè)試集ir_test<-myir[-s,]model<-glm(Species~.,family=binomial(link="logit"),data=ir_train)summary(model)輸出:#殘差a<-predict(model,type="response")#大于0.5為1res_train<-ifelse(a>0.5,1,0)b<-predict(model,type="response",newdata=ir_test)res_test<-ifelse(b>0.5,1,0)model<-glm(Species~.,family=binomial(link="logit"),data=ir_train,control=list(maxit=100))summary(model)輸出:4.分類任務(wù)的評(píng)價(jià)指標(biāo)有哪些,試?yán)肦語(yǔ)言進(jìn)行指標(biāo)計(jì)算的實(shí)現(xiàn)。答:分類任務(wù)的常用評(píng)價(jià)指標(biāo)主要有:①混淆矩陣(ConfuseMatrix);②準(zhǔn)確率(Accuracy);③精準(zhǔn)率(Precision);④召回率(Recall);⑤.F1指數(shù)(F1Score);⑥ROC;⑦.AUC。R語(yǔ)言實(shí)現(xiàn)代碼如下:library(ggplot2)library(knitr)library(dplyr)#載入數(shù)據(jù)df=read.csv("/Users/qiqian/Desktop/R/classification-output-data.csv")#混淆矩陣confusion_table=table(df[,'scored.class'],df[,'class'])confusion_table#[TP,TN,FP,FN]#真陽(yáng)性率,真陰性率,假陽(yáng)性率,假陰性率confusion_table[1,1]='TN'confusion_table[1,2]='FN'confusion_table[2,1]='FP'confusion_table[2,2]='TP'confusion_table#設(shè)置評(píng)價(jià)指標(biāo)函數(shù)#準(zhǔn)確率get_accuracy<-function(df,predicted,actual){confusion_table=table(df[,predicted],df[,actual])TP=confusion_table[2,2]TN=confusion_table[1,1]FN=confusion_table[1,2]FP=confusion_table[2,1]accuracy=round((TP+TN)/sum(TP,FP,TN,FN),2)return(accuracy)}#精準(zhǔn)率get_precision<-function(df,predicted,actual){confusion_table=table(df[,predicted],df[,actual])TP=confusion_table[2,2]TN=confusion_table[1,1]FN=confusion_table[1,2]FP=confusion_table[2,1]precision=round(TP/(TP+FP),2)return(precision)}#召回率get_recall<-function(df,predicted,actual){confusion_table=table(df[,predicted],df[,actual])TP=confusion_table[2,2]TN=confusion_table[1,1]FN=confusion_table[1,2]FP=confusion_table[2,1]precision=round(TP/(TP+FN),2)return(recall)}#ROCandAUCget_roc<-function(df){#Definethresholdvaluesbetween0and1,incrementingby0.01threshold<-seq(0,1,0.01)sens<-c()spec<-c()#Foreverythresholdvalue,determinefor(tinthreshold){sens<-append(sens,sum((df$bability>=t&df$class==1))/sum(df$class==1))spec<-append(spec,sum((df$bability>=t&df$class==0))/sum(df$class==0))}#Pushtheresultedvectorstodataframeforplottingtmp_df<-data.frame(sens=sens,spec=spec)#Plotroc_plot<-ggplot(tmp_df,aes(x=spec,y=sens,group=1))+geom_line()+geom_point()+geom_abline(intercept=0,slope=1)#AreaUndertheCurve(AUC)pos=df[df$class==1,11]neg=df[df$class==0,11]auc_value=mean(replicate(100000,sample(pos,size=1)>sample(neg,size=1)))return(list(plot=roc_plot,auc=auc_value))}rocauc<-get_roc(df)rocauc$plotscore=data.frame(accuracy=get_accuracy(df,'scored.class','class'),precision=get_precision(df,'scored.class','class'),recall=get_recall(df,'scored.class','class'),f1_score=get_f1_score(df,'scored.class','class'),auc=unlist(rocauc[2]))kable(score)輸出:5.闡述邏輯回歸模型的優(yōu)缺點(diǎn)和適用場(chǎng)景答:(1)優(yōu)點(diǎn)①邏輯回歸的基礎(chǔ)是線性回歸,對(duì)于問(wèn)題的抽象相對(duì)容易。②邏輯回歸使用廣泛

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論