大數(shù)據(jù)下的機器學(xué)習(xí)_第1頁
大數(shù)據(jù)下的機器學(xué)習(xí)_第2頁
大數(shù)據(jù)下的機器學(xué)習(xí)_第3頁
大數(shù)據(jù)下的機器學(xué)習(xí)_第4頁
大數(shù)據(jù)下的機器學(xué)習(xí)_第5頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、程序設(shè)計方法學(xué)課程論文大數(shù)據(jù)下的機器學(xué)習(xí)大數(shù)據(jù)下的機器學(xué)習(xí)摘要:隨著產(chǎn)業(yè)界數(shù)據(jù)量的爆炸式增長,大數(shù)據(jù)概念受到越來越多的關(guān)注。由于大數(shù)據(jù)的海量、復(fù)雜多樣、變化快的特性,如何有效利用大數(shù)據(jù)中的信息,并使用這些信息提高生產(chǎn)率成為迫切需要解決的問題。機器學(xué)習(xí)是解決這類問題的有效方法之一。因此,研究大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)算法成為學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的話題。本文旨在對機器學(xué)習(xí)的一些基本算法和在大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)大概面臨的一些問題進行初步介紹。關(guān)鍵詞:大數(shù)據(jù),機器學(xué)習(xí),分類,聚類,最優(yōu)化方法,并行算法1 .大數(shù)據(jù)時代來臨經(jīng)過20余年的努力,Internet已獲得巨大的成功,由此,人們可以在不同時間與地域

2、獲取自己希望獲得的信息。然而,有效獲得信息是一回事,獲得的信息是否能夠有效且方便地使用則是另一回事。目前的現(xiàn)狀是大量可以有效獲得的信息,大約只有10%可以被使用,消耗了大量資源的信息不僅未能夠被有效地使用,而且由于有用的信息正在更深地被掩埋在無用信息之中,變得更難以利用?;ㄙM了大量人力物力而獲得信息,卻無法有效使用,長此以往,這將與未獲得信息無區(qū)別。如何有效利用這些被掩埋的有用信息已成為信息產(chǎn)業(yè)繼續(xù)興旺發(fā)展的關(guān)鍵。大數(shù)據(jù)定義:有關(guān)大數(shù)據(jù)的定義有多種。一個狹義的定義:大數(shù)據(jù)是指不能裝載進計算機內(nèi)存儲器的數(shù)據(jù)。盡管這是一個非正式的定義,但易理解,因為每臺電腦都有一個大到不能裝載進內(nèi)存的數(shù)據(jù)集。廣義

3、的大數(shù)據(jù)定義為:一般意義上,大數(shù)據(jù)是指無法在可容忍的時間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對其進行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。大數(shù)據(jù)特點:大數(shù)據(jù)有多方面的特點,從最開始的3V模型到目前擴展的4V模型就是以大數(shù)據(jù)的特點命名的。3V模型包括體積(Volume),速度(Velodty)和多樣性(Variety);4V模型中的第4個V有多種解釋,如變化性(Variability),虛擬化(Virtual)或價值(Value)。針對這些特點,大數(shù)據(jù)時代知識解析、機器智能與人類智能協(xié)調(diào)工作及智能分析系統(tǒng)將會扮演重要角色,人們需要一種智能分析接口將人類與計算機世界連接,否則將被淹沒在大數(shù)據(jù)的洪流中2

4、.機器學(xué)習(xí)自從計算機被發(fā)明以來,人們就想知道它能不能學(xué)習(xí)。機器學(xué)習(xí)從本質(zhì)上是一個多學(xué)科的領(lǐng)域。它吸取了人工智能、概率統(tǒng)計、計算復(fù)雜性理論、控制論、信息論、哲學(xué)、生理學(xué)、神經(jīng)生物學(xué)等學(xué)科的成果。機器學(xué)習(xí)的研究主旨是使用計算機模擬人類的學(xué)習(xí)活動,它是研究計算機識別現(xiàn)有知識、獲取新知識、不斷改善性能和實現(xiàn)自身完善的方法。這里的學(xué)習(xí)意味著從數(shù)據(jù)中學(xué)習(xí),它包括有監(jiān)督學(xué)習(xí)(SupervisedLearning)、無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)和半監(jiān)督學(xué)習(xí)(Semi-SupervisedLearning)三種類別。有監(jiān)督學(xué)習(xí)需要對已知的樣本進行訓(xùn)練得到算法模型,然后對未知樣本的度量結(jié)

5、果(或者說是標(biāo)簽)進行預(yù)測;而無監(jiān)督學(xué)習(xí)則是直接預(yù)測未知樣本的度量結(jié)果,沒有實現(xiàn)訓(xùn)練的過程;而半監(jiān)督學(xué)習(xí)就是介乎兩者之間的機器學(xué)習(xí)方法。傳統(tǒng)機器學(xué)習(xí)面臨的一個新挑戰(zhàn)是如何處理大數(shù)據(jù)。目前,包含大規(guī)模數(shù)據(jù)的機器學(xué)習(xí)問題是普遍存在的,但是,由于現(xiàn)有的許多機器學(xué)習(xí)算法是基于內(nèi)存的,大數(shù)據(jù)卻無法裝載進計算機內(nèi)存,故現(xiàn)有的諸多算法不能處理大數(shù)據(jù)。如何提出新的機器學(xué)習(xí)算法以適應(yīng)大數(shù)據(jù)處理的需求,是大數(shù)據(jù)時代的研究熱點方向之一。3 .大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)算法3.1 大數(shù)據(jù)分類有監(jiān)督學(xué)習(xí)(分類)面臨的一個新挑戰(zhàn)是如何處理大數(shù)據(jù)。目前包含大規(guī)模數(shù)據(jù)的分類問題是普遍存在的,但是傳統(tǒng)分類算法不能處理大數(shù)據(jù).1)支

6、持向量機分類。SVM法即支持向量機(SupportVectorMachine)法,由Vapnik等人于1995年提出,具有相對優(yōu)良的性能指標(biāo)。該方法是建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的機器學(xué)習(xí)方法。通過學(xué)習(xí)算法,SVM可以自動尋找出那些對分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器可以最大化類與類的間隔。因而有較好的適應(yīng)能力和較高的分率。該方法只需要由各類域的邊界樣本的類別來決定最后的分類結(jié)果。2)決策樹分類。決策樹可看作一個樹狀預(yù)測模型,它通過把實例從根節(jié)點排列到某個葉子節(jié)點來分類實例,葉子節(jié)點即為實例所屬的分類。決策樹的核心問題是選擇分裂屬性和決策樹的剪枝。決策樹的算法有很多,有ID3、C4.

7、5、CART等等。這些算法均采用自頂向下的貪婪算法,每個節(jié)點選擇分類效果最好的屬性將節(jié)點分裂2個或多個子結(jié)點,繼續(xù)這一過程直到這棵樹能準(zhǔn)確地分類訓(xùn)練集,或所有屬性都已被使用過。對于分類問題,當(dāng)葉節(jié)點中只有一個類,那么這個類就作為葉節(jié)點所屬的類,若節(jié)點中有多個類中的樣本存在,根據(jù)葉節(jié)點中樣本最多的那個類來確定節(jié)點所屬的類別,對于回歸問題,則取其數(shù)量值的平均值。3)人工神經(jīng)網(wǎng)絡(luò)算法與感知機。人工神經(jīng)網(wǎng)絡(luò)(ArtficialNeuralNetworksANN)提供了一種普遍而且實用的方法,來從樣例中學(xué)習(xí)值為實數(shù)、離散或向量的函數(shù)。ANN學(xué)習(xí)對于訓(xùn)練數(shù)據(jù)中的擬合效果很好,且已經(jīng)成功地涉及到醫(yī)學(xué)、生理學(xué)

8、、哲學(xué)、信息學(xué)、計算機科學(xué)等眾多學(xué)科領(lǐng)域,這些領(lǐng)域互相結(jié)合、相互滲透并相互推動。不同領(lǐng)域的科學(xué)家從各自學(xué)科的特點出發(fā),提出問題并進行了研究。感知機方法的原始動機是“人類學(xué)習(xí)的根源是神經(jīng)系統(tǒng)”,根據(jù)神經(jīng)系統(tǒng)的原理建立模型是解決學(xué)習(xí)的合理途徑。由此,1956年,Rosenblatt根據(jù)James在1896年提出的神經(jīng)元相互連接與McCullochPitts發(fā)現(xiàn)神經(jīng)元的“興奮”和“抑制”工作方式為基礎(chǔ),建立一種神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型,并使用線性優(yōu)化的方法,奠定了感知機的理論基礎(chǔ),感知機提出之后受到Minsky的嚴(yán)厲批評。這個批評主要集中在兩個問題上,其一,感知機模型不能向非線性(線性不可分)問題推廣,這

9、是對算法的批評;其二,感知機是基于“黑箱”原理,學(xué)習(xí)后的模型與實際世界沒有直接的對應(yīng)關(guān)系,這是對模型形式的批評。3.2 大數(shù)據(jù)聚類1)聚類學(xué)習(xí)是最早被用于模式識別及數(shù)據(jù)挖掘任務(wù)的方法之一,并且被用來研究各種應(yīng)用中的大數(shù)據(jù)庫,因此用于大數(shù)據(jù)的聚類算法受到越來越多的關(guān)注。Haven對比3種擴展的模糊c均值(FCM)聚類算法對于大數(shù)據(jù)的執(zhí)行效率。具體而言,這3種方法分別基于:取樣后進行非迭代擴展;連續(xù)通過數(shù)據(jù)子集的增量技術(shù);提供基于抽樣的估計的核模糊c均值算法;Havens等用可裝載的數(shù)據(jù)集和VL數(shù)據(jù)集來進行數(shù)值型實驗,這些實驗進行如下對比:時間復(fù)雜度、空間復(fù)雜度、速度、處理裝載數(shù)據(jù)的批量FCM的近

10、似質(zhì)量、對劃分和地面實況間匹配的評估。實驗結(jié)果顯示,隨機取樣可擴展FCM(RandomSamplingPlusExtension淞減少FCM(Bit-ReducedFCM)及近似核FCM(ApproximateKernelFCM)都是較好的選擇,都近似于FCM。最后,Havens等展示針對含有50億對象的數(shù)據(jù)集的大數(shù)據(jù)算法,并就如何使用不同的大數(shù)據(jù)FCM聚類策略提出一系列建議。2)另一方面,隨著數(shù)據(jù)體積的增大,I/O瓶頸就變成數(shù)據(jù)分析的一個重要問題。數(shù)據(jù)壓縮能起到緩解作用。以K-means為例,Xue等提出一種壓縮感知性能提升模型用于大數(shù)據(jù)聚類。該模型定量分析整個計算過程中與壓縮有關(guān)的諸多因素

11、的影響。在有上百個計算核的集群上對大到1.114TB的10維數(shù)據(jù)進行聚類實驗,實驗結(jié)果證明使用壓縮能改善I/O性能,并且該模型能有效決定何時如何使用壓縮來改善大數(shù)據(jù)分析中的I/O性能。針對分布式聚類、流數(shù)據(jù)聚類,Hall等研究二次抽樣方法以提高聚類算法的可擴展性。實驗表明,人們可構(gòu)造一個好的模型而不必知道所有的數(shù)據(jù),如果需要,修改后的算法可應(yīng)用于TB級或更多的數(shù)據(jù)。3.3 小結(jié)正如本文開頭所說,機器學(xué)習(xí)涉及的領(lǐng)域與算法繁雜,不僅僅只是分類與聚類兩類算法就能囊括的,這也正給海量數(shù)據(jù)的分析與挖掘提供了許多基礎(chǔ)工具、算法。而機器學(xué)習(xí)應(yīng)用在大數(shù)據(jù)的環(huán)境下必須對傳統(tǒng)算法做出改動,以適應(yīng)大數(shù)據(jù)的特性,而這

12、些改動或者說改進一般面對的問題大概是這幾個:算法模型需要盡量簡化,簡單模型對硬件要求不高,更加容易實現(xiàn),而這是比較困難的,因為要處理的海量數(shù)據(jù)包含的數(shù)據(jù)類型種類繁多、數(shù)據(jù)特征復(fù)雜,而復(fù)雜數(shù)據(jù)往往對應(yīng)的是一個復(fù)雜的模型;算法收斂速度需要盡可能快,而這個要求往往受限于第一個問題,復(fù)雜模型的運算量大,收斂速度必然比較慢,這也是最優(yōu)化方法面臨的問題,所以單線程的機器學(xué)習(xí)算法的運行速度以及很難滿足分析大數(shù)據(jù)的要求,我們更希望將傳統(tǒng)的機器學(xué)習(xí)方法用多線程實現(xiàn),而正如前文所說,并行計算對計算機的I/O要求比較大。4結(jié)語與致謝大數(shù)據(jù)具有屬性稀疏、超高維、高噪聲、數(shù)據(jù)漂移、關(guān)系復(fù)雜等特點,導(dǎo)致傳統(tǒng)機器學(xué)習(xí)算法難以有效處理和分析,為此,需在如下方面展開相應(yīng)研究。1)研究機器學(xué)習(xí)理論和方法,包括數(shù)據(jù)抽樣和屬性選擇等大數(shù)據(jù)處理的基本技術(shù),設(shè)計適合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論