




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、機器學習總結報告劉皓冰大部分人錯誤地以為機器學習是計算機像人一樣去學習。事實上,計算機是死的,怎么可能像人類一樣學習”呢,機器學習依靠的是數學,更確切地說是靠統計。如果我們讓計算機工作,是給它一串指令,然后計算機會遵照這個指令一步步執行下去,有因有果,非常明確。但這種方式在機器學習中是行不通的。機器學習是不會接受你輸入的指令的,它接受的是你輸入的數據。也就是說,機器學習是一種讓計算機利用數據而不是指令來進行各種工作的方法。這聽起來非常不可思議,但結果上卻是非常可行的。統計”思想將在你學習機器學習”相關理念時無時無刻不伴隨,相關而不是因果的概念將是支撐機器學習能夠工作的核心概念。依據數據所做的判
2、斷跟機器學習的思想根本上是一致的。機器學習方法是計算機利用已有的數據(輸入),得出了某種模型,并利用此模型預測未來O出)的一種方法。從數據中學得模型的過程稱為學習”(learning)或訓練”(training),這個過程通過執行某個學習算法來完成。訓練過程中使用的數據成為訓練數據”(trainingdata),其中每個樣本稱為一個訓練樣本”(trainingsample),訓練樣本組成的集合稱為訓練集“(trainingset)。學得模型對應了關于數據的某種潛在的規律,因此亦稱"假設“(hypothesis);這種潛在規律自身,則稱為“真相或"真實"(groun
3、d-truth),學習過程就是為了找出或逼近真相。模型有時也被稱為"學習器”(learner),可看作學習算法在給定數據和參數空間上的實例化。若欲預測的是離散值則此類學習任務被稱為分類";若欲預測的是連續值則此類學習任務稱為回歸”;對只涉及兩個類別的七分類”任務,通常稱其中一個類為正類”,另一個類為反類”;涉及多個類別時,則稱為多分類”任務。模型是否準確依賴與數據。如果我的數據越多,我的模型就越能夠考慮到越多的情況,由此對于新情況的預測效果可能就越好。這是機器學習界數據為王”思想的一個體現。一般來說(不是絕對),數據越多,最后機器學習生成的模型預測的效果越好。機器學習里面有
4、非常多的經典算法,每種算法都能形成一個模型。下面在簡要介紹一下機器學習中的經典代表方法。重點介紹的是這些方法內涵的思想。1、回歸算法在大部分機器學習課程中,回歸算法都是介紹的第一個算法。原因有兩個:一.回歸算法比較簡單,介紹它可以讓人平滑地從統計學遷移到機器學習中。二.回歸算法是后面若干強大算法的基石,如果不理解回歸算法,無法學習那些強大的算法。回歸算法有兩個重要的子類:即線性回歸和邏輯回歸。線性回歸一般使用最小二乘法”來求解。最小二乘法”的思想是這樣的,假設我們擬合出的直線代表數據的真實值,而觀測到的數據代表擁有誤差的值。為了盡可能減小誤差的影響,需要求解一條直線使所有誤差的平方和最小。最小
5、二乘法將最優問題轉化為求函數極值問題。函數極值在數學上我們一般會采用求導數為0的方法。但這種做法并不適合計算機,可能求解不出來,也可能計算量太大。計算機科學界專門有一個學科叫數值計算”,專門用來提升計算機進行各類計算時的準確性和效率問題。例如,著名的梯度下降”以及牛頓法”就是數值計算中的經典算法,也非常適合來處理求解函數極值的問題。梯度下降法是解決回歸模型中最簡單且有效的方法之一。邏輯回歸是一種與線性回歸非常類似的算法,但是,從本質上講,線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數值問題,也就是最后預測出的結果是數字,例如預測一所房子大約可以買多少錢。而邏輯回歸屬于分類算法,也就
6、是說,邏輯回歸預測結果是離散的分類,例如判斷月中瘤是惡性還是良性等等。實現方面的話,邏輯回歸只是對對線性回歸的計算結果加上了一個Sigmoid函數,將數值結果轉化為了0至U1之間的概率(Sigmoid函數的圖像一般來說并不直觀,你只需要理解對數值越大,函數越逼近1,數值越小,函數越逼近0),接著我們根據這個概率可以做預測,例如概率大于0.5,月中瘤就是惡性的等等。2、神經網絡神經網絡(也稱之為人工神經網絡,ANN游法是80年代機器學習界非常流行的算法,不過在90年代中途衰落。現在,攜著深度學習”之勢,神經網絡重裝歸來,重新成為最強大的機器學習算法之一。神經網絡的誕生起源于對大腦工作機理的研究。
7、早期生物界學者們使用神經網絡來模擬大腦。機器學習的學者們使用神經網絡進行機器學習的實驗,發現在視覺與語音的識別上效果都相當好。在BP算法(加速神經網絡訓練過程的數值算法)誕生以后,神經網絡的發展進入了一個熱潮。下圖是一個簡單的神經網絡的邏輯架構。在這個網絡中,分成輸入層,隱藏層,和輸出層。輸入層負責接收信號,隱藏層負責對數據的分解與處理,最后的結果被整合到輸出層。每層中的一個圓代表一個處理單元,可以認為是模擬了一個神經元,若干個處理單元組成了一個層,若干個層再組成了一個網絡,也就是圖神經網絡的邏輯架構在神經網絡中,每個處理單元事實上就是一個邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預測
8、結果作為輸出傳輸到下一個層次。通過這樣的過程,神經網絡可以完成非常復雜的非線性分類。進入90年代,神經網絡的發展進入了一個瓶頸期。其主要原因是盡管有BP算法的加速,神經網絡的訓練過程仍然很困難。因此90年代后期支持向量機(SVM)算法取代了神經網絡的地位。3、SVM(支持向量機)支持向量機算法是誕生于統計學習界,同時在機器學習界大放光彩的經典算法。支持向量機算法從某種意義上來說是邏輯回歸算法的強化:通過給予邏輯回歸算法更嚴格的優化條件,支持向量機算法可以獲得比邏輯回歸更好的分類界線。但是如果沒有某類函數技術,則支持向量機算法最多算是一種更好的線性分類技術。但是,通過跟高斯核”的結合,支持向量機
9、可以表達出非常復雜的分類界線,從而達成很好的的分類效果。核”事實上就是一種特殊的函數,最典型的特征就是可以將低維的空間映射到高維的空間。上述機器學習算法均為監督學習算法。監督學習,就是人們常說的分類回歸,通過已有的訓練樣本(即已知數據以及其對應的輸出)去訓練得到一個最優模型(這個模型屬于某個函數的集合,最優則表示在某個評價準則下是最佳的),再利用這個模型將所有的輸入映射為相應的輸出。在人對事物的認識中,我們從孩子開始就被大人們教授這是貓啊、那是狗啊、那是桌子啊,等等。我們所見到的景物就是輸入數據,而大人們對這些景物的判斷結果(是房子還是鳥啊)就是相應的輸出。當我們見識多了以后,腦子里就慢慢地得
10、到了一些泛化的模型,這就是訓練得到的那個(或者那些)函數,從而不需要大人在旁邊指點的時候,我們也能分辨的出來哪些是貓,哪些是狗。無監督學習則是另一種研究的比較多的學習方法,它與監督學習的不同之處,在于我們事先沒有任何訓練樣本,而需要直接對數據進行建模。這聽起來似乎有點不可思議,但是在我們自身認識世界的過程中很多處都用到了無監督學習。比如我們去參觀一個畫展,我們完全對藝術一無所知,但是欣賞完多幅作品之后,我們也能把它們分成不同的派別(比如哪些更朦朧一點,哪些更寫實一些,即使我們不知道什么叫做朦朧派,什么叫做寫實派,但是至少我們能把他們分為兩個類)。無監督學習里典型的例子就是聚類了。聚類的目的在于
11、把相似的東西聚在一起,而我們并不關心這一類是什么。因此,一個聚類算法通常只需要知道如何計算相似度就可以開始工作了。那么,什么時候應該采用監督學習,什么時候應該采用非監督學習呢?一種非常簡單的回答就是從定義入手,如果我們在分類的過程中有訓練樣本,則可以考慮用監督學習的方法;如果沒有訓練樣本,則不可能用監督學習的方法。但是事實上,我們在針對一個現實問題進行解答的過程中,即使我們沒有現成的訓練樣本,我們也能夠憑借自己的雙眼,從待分類的數據中人工標注一些樣本,并把他們作為訓練樣本,這樣的話就可以把條件改善,用監督學習的方法來做。然而對于不同的場景,正負樣本的分布如果會存在偏移(可能是大的偏移,也可能偏
12、移比較小),這樣的話用監督學習的效果可能就不如用非監督學習了。今天,在計算機科學的諸多分支學科領域中,都能找到機器學習技術的身影,尤其是在計算機視覺、語音識別、模式識別、自然語言處理等計算機應用技術,領域,機器學習已成為最重要的技術進步源泉之一。止匕外,機器學習還為許多交叉學科提供了重要的技術支撐比如說生物信息學可以說計算機視覺=圖像處理+機器學習:圖像處理技術用于將圖像處理為適合進入機器學習模型中的輸入,機器學習則負責從圖像中識別出相關的模式。計算機視覺相關的應用非常的多,例如百度識圖、手寫字符識別、車牌識別等等應用。這個領域是應用前景非常火熱的,同時也是研究的熱門方向。隨著機器學習的新領域
13、深度學習的發展,大大促進了計算機圖像識別的效果,因此未來計算機視覺界的發展前景不可估量。如果說計算機視覺=圖像處理+機器學習:那么"語音識別=語音處理+機器學習:'語音識別就是音頻處理技術與機器學習的結合。語音識別技術一般不會單獨使用,一般會結合自然語言處理的相關技術。目前的相關應用有蘋果語音助手siri、微軟小娜等。自然語言處理=文本處理+機器學習:自然語言處理技術主要是讓機器理解人類的語言的一門領域。在自然語言處理技術中,大量使用了編譯原理相關的技術,例如詞法分析,語法分析等等,除此之外,在理解這個層面,則使用了語義理解,機器學習等技術。作為唯一由人類自身創造的符號,自然
14、語言處理一直是機器學習界不斷研究的方向。按照百度機器學習專家余凱的說法聽與看,說白了就是阿貓和阿狗都會的,而只有語言才是人類獨有的如何利用機器學習技術進行自然語言的的深度理解,一直是工業和學術界關注的焦點。談到對數據進行分析利用,很多人會想到數據挖掘"(datamining)o數據挖掘領域在二十世紀九十年代形成,它受到很多學科領域的影響,其中數據庫、機器學習、統計學無疑影響最大。數據挖掘是從海量數據中發掘知識,這就必然涉及對海量數據”的管理和分析。大體來說,數據挖掘=機器學習蝕據庫“一贄據庫領域的研究為數據挖掘提供數據管理技術,而機器學習和統計學的研究為數據挖掘提供數據分析技術。由于
15、統計學往往醉心于理論的優美而忽視實際的效用,因此,統計學界提供的很多技術通常都要在機器學習界進一步研究,變成有效的機器學習算法之后才能再進入數據挖掘領域。從這個意義上說,統計學主要是通過機器學習來對數據挖掘發揮影響,而機器學習和數據庫則是數據挖掘的兩大支撐技術。從數據分析的角度來看,絕大多數數據挖掘技術都來自機器學習領域,但機器學習研究往往并不把海量數據作為處理對象,因此,數據挖掘要對算法進行改造,使得算法性能和空間占用達到實用的地步。同時,數據挖掘還有自身獨特的內容,即關聯分析。通過上面的介紹,可以看出機器學習是多么的重要,應用是多么的廣泛。現隨著大數據(bigdata)概念的興起,機器學習
16、大量的應用都與大數據高度耦合,幾乎可以認為大數據是機器學習應用的最佳場景。例如經典的Google利用大數據預測了H1N1在美國某小鎮的爆發、百度預測2014年世界杯結果從淘汰賽到決賽全部正確。這實在太神奇了,那么究竟是什么原因導致大數據具有這些魔力的呢?簡單來說,就是機器學習技術。正是基于機器學習技術的應用,數據才能發揮其魔力。大數據的核心是利用數據的價值,機器學習是利用數據價值的關鍵技術,對于大數據而言,機器學習是不可或缺的。相反,對于機器學習而言,越多的數據會越可能提升模型的精確性,同時,復雜的機器學習算法的計算時間也迫切需要分布式計算與內存計算這樣的關鍵技術。因此,機器學習的興盛也離不開大數據的幫助。大數據與機器學習兩者是互相促進,相依相存的關系。機器學習與大數據緊密聯系。但是,必須清醒的認識到,大數據并不等同于機器學習,同理,機器學習也不等
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 傳統食品企業2025年技術改造項目實施保障措施研究報告
- 四季特色飲品市場消費者購買行為與品牌關系研究報告001
- 中草藥足浴培訓課件
- 中國歷代疆域變化
- 周口紅色歷史文化課件
- 原地跑步課件作品介紹
- 中國冬夏氣溫課件大全
- 陳鶴琴教育思想與實踐體系
- 腫瘤患者血管評估體系構建
- 中國八音課件
- GB/T 27773-2011病媒生物密度控制水平蜚蠊
- 質量風險識別項清單及防控措施
- 【課件超聲】常見的超聲效應與圖象偽差
- 2022年石家莊交通投資發展集團有限責任公司招聘筆試試題及答案解析
- 中國華電集團公司信訪事項處理程序
- 特種設備制造內審及管理評審資料匯編經典版
- EDI超純水系統操作說明書
- 金屬監督監理實施細則
- 2022年鎮海中學提前招生模擬卷科學試卷
- 國土空間規劃 教學大綱.docx
- 變電站新建工程土方開挖專項施工方案
評論
0/150
提交評論