機器學習面試題目_第1頁
機器學習面試題目_第2頁
機器學習面試題目_第3頁
機器學習面試題目_第4頁
機器學習面試題目_第5頁
已閱讀5頁,還剩21頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

機器學習面試題目Documentnumber:PBGCG-0857-BTDO-0089-PTT19981、有監督學習和無監督學習的區別有監督學習:對具有標記的訓練樣本進行學習,以盡可能對訓練樣本集外的數據進行分類預測。(LR,SVM,BP,RF,GBDT)無監督學習:對未標記的樣本進行訓練學習,比發現這些樣本中的結構知識。(KMeans,DL)2、正則化正則化是針對過擬合而提出的,以為在求解模型最優的是一般優化最小的經驗風險,現在在該經驗風險上加入模型復雜度這一項(正則化項是模型參數向量的范數),并使用一個rate比率來權衡模型復雜度與以往經驗風險的權重,如果模型復雜度越高,結構化的經驗風險會越大,現在的目標就變為了結構經驗風險的最優化,可以防止模型訓練過度復雜,有效的降低過擬合的風險。奧卡姆剃刀原理,能夠很好的解釋已知數據并且十分簡單才是最好的模型。過擬合如果一味的去提高訓練數據的預測能力,所選模型的復雜度往往會很高,這種現象稱為過擬合。所表現的就是模型訓練時候的誤差很小,但在測試的時候誤差很大。產生的原因過擬合原因:樣本數據的問題。樣本數量太少;抽樣方法錯誤,抽出的樣本數據不能有效足夠代表業務邏輯或業務場景。比如樣本符合正態分布,卻按均分分布抽樣,或者樣本數據不能代表整體數據的分布;樣本里的噪音數據干擾過大模型問題模型復雜度高、參數太多決策樹模型沒有剪枝權值學習迭代次數足夠多(Overtraining),擬合了訓練數據中的噪聲和訓練樣例中沒有代表性的特征.解決方法樣本數據方面。增加樣本數量,對樣本進行降維,添加驗證數據抽樣方法要符合業務場景清洗噪聲數據模型或訓練問題控制模型復雜度,優先選擇簡單的模型,或者用模型融合技術。利用先驗知識,添加正則項。L1正則更加容易產生稀疏解、L2正則傾向于讓參數w趨向于0.4、 交叉驗證不要過度訓練,最優化求解時,收斂之前停止迭代。決策樹模型沒有剪枝權值衰減5、 泛化能力泛化能力是指模型對未知數據的預測能力6、生成模型和判別模型生成模型:由數據學習聯合概率分布P(X,Y),然后求出條件概率分布P(YIX)作為預測的模型,即生成模型:P(YIX)=P(X,Y)/P(X)。(樸素貝葉斯、Kmeans)生成模型可以還原聯合概率分布p(X,Y),并且有較快的學習收斂速度,還可以用于隱變量的學習判別模型:由數據直接學習決策函數Y=f(X)或者條件概率分布P(YIX)作為預測的模型,即判別模型。(k近鄰、決策樹、SVM)直接面對預測,往往準確率較高,直接對數據在各種程度上的抽象,所以可以簡化模型7、 線性分類器與非線性分類器的區別以及優劣如果模型是參數的線性函數,并且存在線性分類面,那么就是線性分類器,否則不是。常見的線性分類器有:LR,貝葉斯分類,單層感知機、線性回歸常見的非線性分類器:決策樹、RF、GBDT、多層感知機SVM兩種都有(看線性核還是高斯核)線性分類器速度快、編程方便,但是可能擬合效果不會很好非線性分類器編程復雜,但是效果擬合能力強8、 特征比數據量還大時,選擇什么樣的分類器線性分類器,因為維度高的時候,數據一般在維度空間里面會比較稀疏,很有可能線性可分對于維度很高的特征,你是選擇線性還是非線性分類器理由同上對于維度極低的特征,你是選擇線性還是非線性分類器非線性分類器,因為低維空間可能很多特征都跑到一起了,導致線性不可分如果Feature的數量很大,跟樣本數量差不多,這時候選用LR或者是LinearKernel的SVM如果Feature的數量比較小,樣本數量一般,不算大也不算小,選用SVM+GaussianKernel如果Feature的數量比較小,而樣本數量很多,需要手工添加一些feature變成第一種情況9、 ill-condition病態問題訓練完的模型測試樣本稍作修改就會得到差別很大的結果,就是病態問題(這簡直是不能用啊)10、 L1和L2正則的區別,如何選擇L1和L2正則他們都是可以防止過擬合,降低模型復雜度L1是在lossfunction后面加上模型參數的1范數(也就是Ixil)L2是在lossfunction后面加上模型參數的2范數(也就是sigma(xi人2)),注意L2范數的定義是sqrt(sigma(xiA2)),在正則項上沒有添加sqrt根號是為了更加容易優化L1會產生稀疏的特征L2會產生更多地特征但是都會接近于0L1會趨向于產生少量的特征,而其他的特征都是0,而L2會選擇更多的特征,這些特征都會接近于0。L1在特征選擇時候非常有用,而L2就只是一種規則化而已。L1求解最小角回歸算法:LARS算法11、 越小的參數說明模型越簡單過擬合的,擬合會經過曲面的每個點,也就是說在較小的區間里面可能會有較大的曲率,這里的導數就是很大,線性模型里面的權值就是導數,所以越小的參數說明模型越簡單。12、 為什么一些機器學習模型需要對數據進行歸一化歸一化化就是要把你需要處理的數據經過處理后(通過某種算法)限制在你需要的一定范圍內。1) 歸一化后加快了梯度下降求最優解的速度。等高線變得顯得圓滑,在梯度下降進行求解時能較快的收斂。如果不做歸一化,梯度下降過程容易走之字,很難收斂甚至不能收斂2) 把有量綱表達式變為無量綱表達式,有可能提高精度。一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。如果一個特征值域范圍非常大,那么距離計算就主要取決于這個特征,從而與實際情況相悖(比如這時實際情況是值域范圍小的特征更重要)3) 邏輯回歸等模型先驗假設數據服從正態分布。哪些機器學習算法不需要做歸一化處理概率模型不需要歸一化,因為它們不關心變量的值,而是關心變量的分布和變量之間的條件概率,如決策樹、rf。而像adaboost、gbdt、xgboost、svm、lr、KNN、KMeans之類的最優化問題就需要歸一化。特征向量的歸一化方法線性函數轉換,表達式如下:y=(x-MinValue)/(MaxValue-MinValue)對數函數轉換,表達式如下:y=log10(x)反余切函數轉換,表達式如下:y=arctan(x)*2/PI減去均值,乘以方差:y=(x-means)/variance標準化與歸一化的區別簡單來說,標準化是依照特征矩陣的列處理數據,其通過求z-score的方法,將樣本的特征值轉換到同一量綱下。歸一化是依照特征矩陣的行處理數據,其目的在于樣本向量在點乘運算或其他核函數計算相似性時,擁有統一的標準,也就是說都轉化為“單位向量”。規則為l2的歸一化公式如下:13、特征向量的缺失值處理缺失值較多.直接將該特征舍棄掉,否則可能反倒會帶入較大的noise,對結果造成不良影響。缺失值較少,其余的特征缺失值都在10%以內,我們可以采取很多的方式來處理:1) 把NaN直接作為一個特征,假設用0表示;2) 用均值填充;3) 用隨機森林等算法預測填充方法一()簡單粗暴,對于訓練集,同一個class下的數據,如果是分類變量缺失,用眾數補上,如果是連續型變量缺失,用中位數補。方法二(rfImpute)這個方法計算量大,至于比方法一好壞不好判斷。先用補上缺失值,然后構建森林并計算proximitymatrix,再回頭看缺失值,如果是分類變量,則用沒有缺失的觀測實例的proximity中的權重進行投票。如果是連續型變量,則用proximity矩陣進行加權平均的方法補缺失值。然后迭代4-6次,這個補缺失值的思想和KNN有些類似12。衡量變量重要性的方法有兩種,DecreaseGINI和DecreaseAccuracy:DecreaseGINI:對于回歸問題,直接使用argmax(VarVarLeftVarRight)作為評判標準,即當前節點訓練集的方差Var減去左節點的方差VarLeft和右節點的方差VarRightoDecreaseAccuracy:對于一棵樹Tb(x),我們用OOB樣本可以得到測試誤差1;然后隨機改變OOB樣本的第j列:保持其他列不變,對第j列進行隨機的上下置換,得到誤差2。至此,我們可以用誤差1-誤差2來刻畫變量j的重要性。基本思想就是,如果一個變量j足夠重要,那么改變它會極大的增加測試誤差;反之,如果改變它測試誤差沒有增大,則說明該變量不是那么的重要。14、優化Kmeans使用kd樹或者balltree(這個樹不懂)將所有的觀測實例構建成一顆kd樹,之前每個聚類中心都是需要和每個觀測點做依次距離計算,現在這些聚類中心根據kd樹只需要計算附近的一個局部區域即可KMeans初始類簇中心點的選取k-means++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相互距離要盡可能的遠。從輸入的數據點集合中隨機選擇一個點作為第一個聚類中心對于數據集中的每一個點x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x)選擇一個新的數據點作為新的聚類中心,選擇的原則是:D(x)較大的點,被選取作為聚類中心的概率較大重復2和3直到k個聚類中心被選出來利用這k個初始的聚類中心來運行標準的k-means算法15、 解釋對偶的概念一個優化問題可以從兩個角度進行考察,一個是primal問題,一個是dual問題,就是對偶問題,一般情況下對偶問題給出主問題最優值的下界,在強對偶性成立的情況下由對偶問題可以得到主問題的最優下界,對偶問題是凸優化問題,可以進行較好的求解,SVM中就是將primal問題轉換為dual問題進行求解,從而進一步引入核函數的思想。16、 如何進行特征選擇特征選擇是一個重要的數據預處理過程,主要有兩個原因:一是減少特征數量、降維,使模型泛化能力更強,減少過擬合;二是增強對特征和特征值之間的理解常見的特征選擇方式:去除方差較小的特征正則化。1正則化能夠生成稀疏的模型。L2正則化的表現更加穩定,由于有用的特征往往對應系數非零。隨機森林,對于分類問題,通常采用基尼不純度或者信息增益,對于回歸問題,通常采用的是方差或者最小二乘擬合。一般不需要featureengineering、調參等繁瑣的步驟。它的兩個主要問題,1是重要的特征有可能得分很低(關聯特征問題),2是這種方法對特征變量類別多的特征越有利(偏向問題)。穩定性選擇。是一種基于二次抽樣和選擇算法相結合較新的方法,選擇算法可以是回歸、SVM或其他類似的方法。它的主要思想是在不同的數據子集和特征子集上運行特征選擇算法,不斷的重復,最終匯總特征選擇結果,比如可以統計某個特征被認為是重要特征的頻率(被選為重要特征的次數除以它所在的子集被測試的次數)。理想情況下,重要特征的得分會接近100%。稍微弱一點的特征得分會是非0的數,而最無用的特征得分將會接近于0。17、數據預處理缺失值,填充缺失值fillna:離散:None,連續:均值。缺失值太多,則直接去除該列連續值:離散化。有的模型(如決策樹)需要離散值對定量特征二值化。核心在于設定一個閾值,大于閾值的賦值為1,小于等于閾值的賦值為0。如圖像操作皮爾遜相關系數,去除高度相關的列#correlationmatrixcorrmat=()f,ax=(figsize=(12,9))(corrmat,vmax=.8,square=True);去除噪聲點。通過函數圖示某一特征與預測特征的點分布圖,明顯看出噪聲點,去除即可#bivariateanalysissaleprice/grlivareavar='GrLivArea'data=([df_train['SalePrice'],df_train[var]],axis=1)二(0,800000));(by='GrLivArea',ascending二False)[:2]df_train=(df_train[df_train['Id']二二1299].index)df_train=(df_train[df_train['Id']==524].index)標簽編碼,把字符類別特征編碼成數值類型,如紅綠藍編碼為0、1、2歸一化。將數據按比例縮放,使這些數據落入到一個較小的特定的區間之內。最小最大縮放:當使用基于距離的算法時,我們必須嘗試將數據縮放,這樣較不重要的特征不會因為自身較大的范圍而主導目標函數。如KNN。在邏輯回歸中,每個特征都被分配了權重或系數(Wi)。如果某個特征有相對來說比較大的范圍,而且其在目標函數中無關緊要,那么邏輯回歸模型自己就會分配一個非常小的值給它的系數,從而中和該特定特征的影響優勢,而基于距離的方法,如KNN,沒有這樣的內置策略,因此需要縮放。Z-score標準化:很多的機器學習技巧/模型(例如L1,L2正則項,向量空間模型-VectorSpaceModel,歐幾里得距離測量的KNN、k-均值、SVM、感知器、神經網絡、線性判別分析、主成分分析)都基于這樣的假設:所有的屬性取值都差不多是以0為均值且取值范圍相近的,標準化數據幫助我們提高預測模型的精度。備注:在縮放和標準化中二選一是個令人困惑的選擇,你必須對數據和要使用的學習模型有更深入的理解,才能做出決定。對于初學者,你可以兩種方法都嘗試下并通過交叉驗證精度來做出選擇。18、什么是偏差與方差泛化誤差可以分解成偏差的平方加上方差加上噪聲。偏差度量了學習算法的期望預測和真實結果的偏離程度,刻畫了學習算法本身的擬合能力,方差度量了同樣大小的訓練集的變動所導致的學習性能的變化,刻畫了數據擾動所造成的影響,噪聲表達了當前任務上任何學習算法所能達到的期望泛化誤差下界,刻畫了問題本身的難度。偏差和方差一般稱為bias和variance,—般訓練程度越強,偏差越小,方差越大,泛化誤差一般在中間有一個最小值,如果偏差較大,方差較小,此時一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。偏差:方差:解決bias和Variance問題的方法:交叉驗證Highbias解決方案:Boosting、復雜模型(非線性模型、增加神經網絡中的層)、更多特征HighVariance解決方案:agging、簡化模型、降維19、采用EM算法求解的模型有哪些,為什么不用牛頓法或梯度下降法用EM算法求解的模型一般有GMM或者協同過濾,k-means其實也屬于EM。EM算法一定會收斂,但是可能收斂到局部最優。由于求和的項數將隨著隱變量的數目指數上升,會給梯度計算帶來麻煩。20、SVM、LR.決策W的對比模型復雜度:SVM支持核函數,可處理線性非線性問題;LR模型簡單,訓練速度快,適合處理線性問題;決策樹容易過擬合,需要進行剪枝損失函數:SVMhingeloss;LRL2正則化;adaboost指數損失數據敏感度:SVM添加容忍度對outlier不敏感,只關心支持向量,且需要先做歸一化;LR對遠點敏感數據量:數據量大就用LR,數據量小且特征少就用SVM非線性核21、GBDT和隨機森林的區別隨機森林采用的是bagging的思想,bagging又稱為bootstrapaggreagation,通過在訓練樣本集中進行有放回的采樣得到多個采樣集,基于每個采樣集訓練出一個基學習器,再將基學習器結合。隨機森林在對決策樹進行bagging的基礎上,在決策樹的訓練過程中引入了隨機屬性選擇。傳統決策樹在選擇劃分屬性的時候是在當前節點屬性集合中選擇最優屬性,而隨機森林則是對結點先隨機選擇包含k個屬性的子集,再選擇最有屬性,k作為一個參數控制了隨機性的引入程度。另外,GBDT訓練是基于Boosting思想,每一迭代中根據錯誤更新樣本權重,因此是串行生成的序列化方法,而隨機森林是bagging的思想,因此是并行化方法。22、xgboost怎么給特征評分在訓練的過程中,通過Gini指數選擇分離點的特征,一個特征被選中的次數越多,那么該特征評分越高。[python]viewplaincopyprint#featureimportanceprint#plot(range(len),()==========#plotfeatureimportanceplot_importance(model)()featureimportanceprintplot(range(len),()#plotfeatureimportanceplot_importance(model)()23、 什么是OOB隨機森林中OOB是如何計算的,它有什么優缺點bagging方法中Bootstrap每次約有1/3的樣本不會出現在Bootstrap所采集的樣本集合中,當然也就沒有參加決策樹的建立,把這1/3的數據稱為袋外數據oob(outofbag),它可以用于取代測試集誤差估計方法。袋外數據(oob)誤差的計算方法如下:對于已經生成的隨機森林,用袋外數據測試其性能,假設袋外數據總數為O,用這O個袋外數據作為輸入,帶進之前已經生成的隨機森林分類器,分類器會給出O個數據相應的分類,因為這O條數據的類型是已知的,則用正確的分類與隨機森林分類器的結果進行比較,統計隨機森林分類器分類錯誤的數目,設為X,則袋外數據誤差大小=X/O;這已經經過證明是無偏估計的,所以在隨機森林算法中不需要再進行交叉驗證或者單獨的測試集來獲取測試集誤差的無偏估計。24、 解釋置信區間置信區間不能用貝葉斯學派的概率來描述,它屬于頻率學派的范疇。真值要么在,要么不在。由于在頻率學派當中,真值是一個常數,而非隨機變量(后者是貝葉斯學派),所以我們不對真值做概率描述。比如,95%置信區間,并不是真值在這個區間內的概率是95%,而應該為100次隨機抽樣中構造的100個區間如果95次包含了參數真值,那么置信度為95%。25、 監督學習一般使用兩種類型的目標變量:標稱型和數值型標稱型:標稱型目標變量的結果只在有限目標集中取值,如真與假(標稱型目標變量主要用于分類)數值型:數值型目標變量則可以從無限的數值集合中取值,如,等(數值型目標變量主要用于回歸分析)26、為什么說樸素貝葉斯是高偏差低方差它簡單的假設了各個特征之間是無關的,是一個被嚴重簡化了的模型。所以,對于這樣一個簡單模型,大部分場合都會bias部分大于variance部分,也就是高偏差,低方差什么是機器學習機器學習是為了應對系統程序設計,屬于計算機科學類的學科,它能根據經驗進行自動學習和提高。例如:一個由程序操縱的機器人,它能根據從傳感器搜集到的數據,完成一系列的任務和工作。它能根據數據自動地學習應用程序。機器學習與數據挖掘的區別機器語言是指在沒有明確的程序指令的情況下,給予計算機學習能力,使它能自主的學習、設計和擴展相關算法。數據挖掘則是一種從非結構化數據里面提取知識或者未知的、人們感興趣的圖片。在這個過程中應用了機器學習算法。什么是機器學習的過度擬合現象在機器學習中,當一個統計模型首先描述隨機誤差或噪聲,而不是自身的基本關系時,過度擬合就會出現。當一個模型是過于復雜,過擬合通常容易被發現,因為相對于訓練數據類型的數量,參數的數量過于五花八門。那么這個模型由于過度擬合而效果不佳。過度擬合產生的原因由于用于訓練模型的標準并不等同于判斷模型效率的標準,這導致了產生過度擬合的可能性。如何避免過度擬合當你使用較小的數據集進行機器學習時,容易產生過度擬合,因此使用較大的數據量能避免過度擬合現象。但是,當你不得不使用小型數據集進行建模時,可以使用被稱為交叉驗證的技術。在這種方法中數據集被分成兩節,測試和訓練數據集,測試數據集只測試模型,而在訓練數據集中,數據點被用來建模。在該技術中,一個模型通常是被給定有先驗知識的數據集(訓練數據集)進行訓練,沒有先驗知識的數據集進行測試。交叉驗證的思想是:在訓練階段,定義一個數據集用來測試模型。什么是感應式的機器學習感應機器學習涉及由實踐進行學習的過程,能從一組可觀測到的例子的嘗試推導出普遍性規則。什么是機器學習的五個流行的算法1.決策樹2.神經網絡(反向傳播)3.概率網絡4.最鄰近法5.支持向量機機器學習有哪些不同的算法技術在機器學習不同類型的算法技術是:1.監督學習2.非監督學習3.半監督學習4.轉導推理(Transduction)5.學習推理(LearningtoLearn)o在機器學習中,建立假設或者模型的三個階段指的是什么1.建模2.模型測試3.模型應用。什么是監督學習的標準方法監督學習的標準方法是將一組示例數據的分成訓練數據集和測試數據集。什么是訓練數據集和測試數據集在類似于機器學習的各個信息科學相關領域中,一組數據被用來發現潛在的預測關系,稱為“訓練數據集”。訓練數據集是提供給學習者的案例,而試驗數據集是用于測試由學習者提出的假設關系的準確度。下面列出機器學習的各種方法機器學習的各種方法如下“概念與分類學習(ConceptVsClassificationLearning)o符號與統計學習(SymbolicVsStatisticalLearning)o歸納與分析學習(InductiveVsAnalyticalLearning)o非機器學習有哪些類型人工智能、規則推理。什么是非監督學習的功能1.求數據的集群2.求出數據的低維表達3.查找數據有趣的方向4.有趣的坐標和相關性5.發現顯著的觀測值和數據集清理什么是監督學習的功能1.分類、2.語音識別3.回歸4.時間序列預測5.注釋字符串什么是算法獨立的機器學習機器學習在基礎數學領域獨立于任何特定分類器或者學習算法,被稱為算法獨立的機器學習。人工智能與機器學習的區別基于經驗數據的特性而設計和開發的算法被稱為機器學習。而人工智能不但包括機器學習,還包括諸如知識表示,自然語言處理,規劃,機器人技術等其它方法。在機器學習中分類器指的是什么在機器學習中,分類器是指輸入離散或連續特征值的向量,并輸出單個離散值或者類型的系統。19才卜素貝葉斯方法的優勢是什么樸素貝葉斯分類器將會比判別模型,譬如邏輯回歸收斂得更快,因此你只需要更少的訓練數據。其主要缺點是它學習不了特征間的交互關系。在哪些領域使用模式識別技術模式識別被應用在:1.計算機視覺2.語言識別3.統計4.數據挖掘5.非正式檢索6.生物信息學。什么"傳編程遺傳編程的機器學習中兩種常用的方法之一。該模型是基于測試,并在一系列的結果當中,獲取最佳選擇。在機器學習中歸納邏輯程序設計是指什么歸納邏輯程序設計(ILP)是利用邏輯程序設計表達的背景知識和實例,它是機器學習的一個分支。在機器學習中,模型的選擇是指在不同的數學模型中,選擇用于描述相同的數據集的模型的過程被稱為模型選擇。模型選擇吧被應用于統計,機器學習和數據挖掘的等相關領域。用于監督學習校準兩種方法是什么在監督學習中,用于預測良好概率的兩種方法是:1.普拉特校準,2.保序回歸。這些方法被設計為二元分類,而且有意義的。什么方法通常用于防止過擬合當有足夠的數據進行等滲回歸時,這通常被用來防止過擬合問題。規則學習的啟發式方法和決策樹的啟發式方法之間的區別是什么決策樹的啟發式方法評價的是一系列不相交的集合的平均質量;然而規則學習的啟發式方法僅僅評價在候選規則覆蓋下的實例集。什么是感知機器學習在機器學習,感知器是一種輸入到幾個可能的非二進制輸出的監督分類算法。貝葉斯邏輯程序的兩個組成部分是什么貝葉斯邏輯程序由兩部分組成。第一成分由一組貝葉斯條款組成,能捕捉特定域的定性結構。第二組分是定量的,它能對域的量化信息進行編碼。什么是貝葉斯網絡貝葉斯網絡是用來表示一組變量之間為概率關系的圖像模型。為什么基于實例的學習算法有時也被稱為懶情學習算法基于實例的學習算法也被稱為懶惰學習算法,因為它們延緩誘導或泛化過程,直到分類完成。支持向量機能處理哪兩種分類方法1.結合二分類法2.修改二進制納入多類學習法。什么是集成學習為了解決特定的計算程序,如分類器或專家知識等多種模式,進行戰略性生產和組合。這個過程被稱為集成學習。為什么集成學習被應用集成學習能提高模型的分類,預測,函數逼近等方面的精度。什么使用集成學習當你構建一個更準確,相互獨立的分類器時,使用集成學習。什么是集成方法的兩種范式集成方法的兩種范式是:1.連續集成方法2.并行集成方法。什么是集成方法的一般原則,在集成方法中套袋(bagging)和爆發(boosting)指的是什么集成方法的一般原則是要結合定的學習算法多種預測模型,相對于單一模型,其有更強的健壯性。套袋是一種能提高易變的預測或分類方案集成方法。爆發方法被依次用來減少組合模型的偏差。爆發和裝袋都可以通過降低方差減少誤差。什么是集成方法分類錯誤的偏置方差分解學習算法的期望誤差可以分解為偏差和方差。偏置項衡量由學習方法產生的平均分類器與目標函數是否匹配。38?在集成方法中什么是增量合成方法增量學習方法是一種從新數據進行學習,并能應用于后續由現有的數據集生成的分類器的算法。,KPCA和ICE如何使用PCA(主成分分析),KPCA(基于內核主成分分析)和ICA(獨立成分分析)是用于降維的重要特征提取技術。在機器學習中降維是什么意思在機器學習和統計應用中,降維是指在計算時減少隨機變量數目的處理過程,并且可以分為特征選擇和特征提取。什么是支持向量機支持向量機是一種監督學習算法,適用于分類和回歸分析。關系評價技術的組成部分是什么關系評價技術的重要組成部分如下:數據采集2.地面實況采集3.交叉驗證技術4.查詢類型5.評分標準6.顯著性檢驗。連續監督學習有什么不同方法連續監督學習問題的不同解決辦法如下:1.滑動窗口方法2.復發性推拉窗3.隱藏馬爾科夫模型4.最大熵馬爾科夫模型5.條件隨機域6.圖變換網絡。44?在機器人技術和信息處理技術的哪些方面會相繼出現預測問題在機器人技術和信息處理技術中,相繼出現預測問題的是:1.模仿學習2.結構預測3.基于模型的強化學習。45.什么是批量統計學習統計學習技術允許根據一組觀察到的數據進行學習功能和預測,這可以對無法觀察和未知的數據進行預測。這些技術提供的學習預測器對未來未知數據的預測提供性能保證。46什么是PAC學習可能近似正確模型(PAC)學習是一個已經被引入到分析學習算法和統計效率的學習框架。47有哪些不同的類別可以分為序列學習過程序列預測2.序列生成3.序列識別4.順序決定.48什么是序列學習序列學習是一種以合乎邏輯的方式進行教學和學習的方法49?機器學習的兩種技術是什么機器學習的兩種技術是:1.遺傳編程2.歸納學習50.你在日常工作中看到的機器學習的一個流行應用是什么各大電商網站上已部署好的推薦引擎使用的是機器學習。問1:你會在時間序列數據集上使用什么交叉驗證技術是用k倍或LOOCV答:都不是。對于時間序列問題,k倍可能會很麻煩,因為第4年或第5年的一些模式有可能跟第3年的不同,而對數據集的重復采樣會將分離這些趨勢,而我們最終可能只是需要對過去幾年的進行驗證,這就不能用這種方法了。相反,我們可以采用如下所示的5倍正向鏈接策略:fold1fold2fold3fold4fold5training[1],test[2]training[12],test[3]training[123],test[4]training[1234],test[5]training[12345],test[6]1,2,3,4,5,6代表的是年份。問2:你是怎么理解偏差方差的平衡的答:從數學的角度來看,任何模型出現的誤差可以分為三個部分。以下是這三個部分:偏差誤差在量化平均水平之上,預測值跟實際值相差多遠時有用。高偏差誤差意味著我們的模型表現不太好,因為沒有抓到重要的趨勢。而另一方面,方差量化了在同一個觀察上進行的預測是如何彼此不同的。高方差模型會過度擬合你的訓練集,而在訓練集以外的數據上表現很差。問3:給你一個有1000列和1百萬行的訓練數據集,這個數據集是基于分類問題的。經理要求你來降低該數據集的維度以減少模型計算時間,但你的機器內存有限。你會怎么做(你可以自由做各種實際操作假設。)答:你的面試官應該非常了解很難在有限的內存上處理高維的數據。以下是你可以使用的處理方法:由于我們的RAM很小,首先要關閉機器上正在運行的其他程序,包括網頁瀏覽器等,以確保大部分內存可以使用。我們可以隨機采樣數據集。這意味著,我們可以創建一個較小的數據集,比如有1000個變量和30萬行,然后做計算。為了降低維度,我們可以把數值變量和分類變量分開,同時刪掉相關聯的變量。對于數值變量,我們將使用相關性分析;對于分類變量,我們可以用卡方檢驗。另外,我們還可以使用PCA(主成分分析),并挑選可以解釋在數據集中有最大偏差的成分。利用在線學習算法,如VowpalWabbit(在Python中可用)是一個不錯的選擇。利用StochasticGradientDescent(隨機梯度下降法)建立線性模型也很有幫助。我們也可以用我們對業務的理解來估計各預測變量對響應變量的影響的大小。但是,這是一個主觀的方法,如果沒有找出有用的預測變量可能會導致信息的顯著丟失。問4:全球平均溫度的上升導致世界各地的海盜數量減少。這是否意味著海盜的數量減少引起氣候變化答:不能夠這樣說。這是一個“因果關系和相關性”的經典案例。全球平均溫度和海盜數量之間有可能有相關性,但基于這些信息,我們不能說因為全球平均氣溫的上升而導致了海盜的消失。我們不能斷定海盜的數量減少是引起氣候變化的原因,因為可能有其他因素(潛伏或混雜因素)影響了這一現象。問5:給你一個數據集,這個數據集有缺失值,且這些缺失值分布在離中值有1個標準偏差的范圍內。百分之多少的數據不會受到影響為什么答:約有32%的數據將不受缺失值的影響。因為,由于數據分布在中位數附近,讓我們先假設這是一個正態分布。我們知道,在一個正態分布中,約有68%的數據位于跟平均數(或眾數、中位數)1個標準差范圍內,那么剩下的約32%的數據是不受影響的。因此,約有32%的數據將不受缺失值的影響。問6:你意識到你的模型受到低偏差和高方差問題的困擾。那么,應該使用哪種算法來解決問題呢為什么答:可以使用bagging算法(如隨機森林)。因為,低偏差意味著模型的預測值接近實際值,換句話說,該模型有足夠的靈活性,以模仿訓練數據的分布。這樣貌似很好,但是別忘了,一個靈活的模型沒有泛化能力,意味著當這個模型用在對一個未曾見過的數據集進行測試的時候,它會令人很失望。在這種情況下,我們可以使用bagging算法(如隨機森林),以解決高方差問題。bagging算法把數據集分成重復隨機取樣形成的子集。然后,這些樣本利用單個學習算法生成一組模型。接著,利用投票(分類)或平均(回歸)把模型預測結合在一起。另外,為了應對大方差,我們可以:使用正則化技術,懲罰更高的模型系數,從而降低了模型的復雜性。使用可變重要性圖表中的前n個特征。可以用于當一個算法在數據集中的所有變量里很難尋找到有意義信號的時候。問7:協方差和相關性有什么區別答:相關性是協方差的標準化格式。協方差本身很難做比較。例如:如果我們計算工資($)和年齡(歲)的協方差,因為這兩個變量有不同的度量,所以我們會得到不能做比較的不同的協方差。為了解決這個問題,我們計算相關性來得到一個介于-1和1之間的值,就可以忽略它們各自不同的度量。問8:真陽性率和召回有什么關系寫出方程式。答:真陽性率=召回。它們有相同的公式(TP/TP+FN)。問9:Gradientboosting算法(GBM)和隨機森林都

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論