【第四范式陳雨強】飛馬網V2.1-第四范式 陳雨強_第1頁
【第四范式陳雨強】飛馬網V2.1-第四范式 陳雨強_第2頁
【第四范式陳雨強】飛馬網V2.1-第四范式 陳雨強_第3頁
【第四范式陳雨強】飛馬網V2.1-第四范式 陳雨強_第4頁
【第四范式陳雨強】飛馬網V2.1-第四范式 陳雨強_第5頁
已閱讀5頁,還剩40頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

痛點路第四范式陳雨強2017年8月5日吐隨著器數的增加NEED吐隨著器數的增加NEED,ADDYOURTEXTHEREYOUNEED,ADDYOURTEXTHEREYOUNEED.擴展的機器學習系統人工智能的興盛是數據量變大、機器性能提升、并行計算發展的結果ScalableMLSystem≠ScalableSystemScalable?ADDYOURTEXTHEREYOU壘、工業大數據需要高VC維模型VC維(Vapnik-ChervonenkisDimension)又稱VC理論;VC維反映了函數集的學習能力,VC維越大則模型或函數越復雜,學習能力就越強;模型一定要與待解決的問題相匹配,如果模型過于簡單,而問題本身的復雜度很高,就無法得到預期的精度擴展的機器學習系統機器學習=數據+特征+模型學術界主導(ICML,NIPS,ICLR)?非線性的三把寶劍:Kernel,Boosting,NeuralNetwork?模型大部分單機可加載?解決數據分布式問題,以及降低系統overhead工業界針對應用定制模型?基于思考或者觀測得到的假設?加入新的模型、結構,以加入更多參數?典型案例:伽利略工業界主導(KDD,WWW)?模型相對簡單粗暴?分布式,工程挑戰大?高效并行并保證快速收斂工業界中一般針對應用定制特征?為什么有那么多特征,怎么產生這些特征?如何理解這些特征?人工智能愛因斯坦沒有免費的午餐定理:不存在萬能模型“Weshowthatallalgorithmsthatsearchforanextremumofacostfunctionperformexactlythesame,whenaveragedoverallpossiblecostfunctions.Inparticular,ifalgorithmAoutperformsalgorithmBonsomecostfunctions,thenlooselyspeakingtheremustexistexactlyasmanyotherfunctionswhereBoutperformsA”--byWolpertandMacready(1995)inNoFreeLunchTheorem所有的機器學習模型都是一個偏置?更多的模型假設更少的數據?更簡單的模型假設更多的數據支持與特征刻畫工業界機器學習中并沒有免費的午餐,要做出對業務問題合適的選擇與Hadoop相比工業界應用機器學習的難題工業界應用機器學習的難題需要AI應用平臺?Tenserflow,Mxnet,Caffe等工具日趨豐富為什么人工智能還沒有真的大規模應用到每個企業?Hadoop為什么用的人多??先驅知識要求太多?能做AI的還是研究/應用機器學習科學家?核心機器學習算法平臺只降低了一部分門檻?更大的應用基礎:降門檻>算法效果特征工程在工業界是巨大的難關?什么是特征工程?現在的平臺已經足夠了嗎??需要對機器學習與業務都非常理解?不同的算法,要使用不同的特征工程達到同一個目標以新聞推薦為例?一階特征:每個用戶直接喜歡什么?二階特征:用戶的擴展興趣(喜歡大數據的人,可能對機器學習也感興趣)特征工程在工業界是巨大的難關?需要對機器學習與業務都非常理解?不同的算法,要使用不同的特征工程達到同一個目標特征工程是非常大的難題?需要對機器學習與業務都非常理解?不同的算法,同樣的特征,獲得效果不同如何進行自動的特征工程?隱式特征組合(NN,FM)?半顯式顯示特征組合(GBDT)?顯式特征組合(特征叉乘)主要特點?對連續值特征天然友好?最大的成功:語音圖像?高級離散變量處理相對更復雜?隱式組合,基本無可解釋性對離散特征需要LargeScaleEmbedding?EmbeddingNN?FM,FNN,PNN?DeepFM對離散特征需要Large?EmbeddingNN?FM,FNN,PNN?DeepFM?第四范式DSNScaleEmbedding主要是森林類算法?為什么是“半隱式”?看起來可以解釋,實際上并不可解釋?看起來在做特征組合,實際上是層次貪心副產物第四范式HE-TreeNet,GBM?解決大規模離散特征的樹模型?研發基于Embedding,Ensembling,Stacking的系列樹算法主要特點?理解容易,相對魯棒,效果優秀?Off-the-shelf?離散特征非常難解,無現有方案主要基于貪心與搜索?正則化?BeamSearch,MCTS?遺傳算法,模擬退火顯式特征組合優勢?可解釋性:提供深度業務洞察?可疊加性:增強所有機器學問題特別的難?圍棋的狀態空間<319×19;而n個特征,選m個特征,限制最大k階組合,狀態空間為C2CState-of-art?OnlineBoostingFeatureSelection:單特征WeakLearner基于Adaboost的選擇?OnlineRegularization:基于Lasso對梯度、權重截斷現有算法的問題?并非為n選m個k階以下特征設計?多為副產物,對信息損失的比較大?二階組合為主,基本無法高階特征組合第四范式FeatureGO算法?基于MCTS,對特征組合狀態進行估計?調優的搜索剪枝技術?利用LFC算法解決連續值特征組合問題?組合特征可高達6階FeatureGo,GBM,DSN觸BoostingFully/PartiallyCorrectiveLearningCrossParameter-serverSharing(CPS)計算能力也是人工智能的一部分?計算能力是新的性感,智能同樣來自于計算?Google立出了榜樣?在第四范式,架構、工程優化與算法并重基于搜索的調參?GridSearch?

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論