




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Top10MostCommonDataMiningAlgorithms
Unit
6TextBContents
NewWords
Abbreviations
Phrases參考譯文NewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextA十大最常見(jiàn)的數(shù)據(jù)挖掘算法1.C4.5算法C4.5是頂級(jí)數(shù)據(jù)挖掘算法之一,由RossQuinlan開(kāi)發(fā)。C4.5用于根據(jù)已分類(lèi)的一組數(shù)據(jù)以決策樹(shù)的形式生成分類(lèi)器。這里的分類(lèi)器是指一種數(shù)據(jù)挖掘工具,該工具獲取我們需要分類(lèi)的數(shù)據(jù)并嘗試預(yù)測(cè)新數(shù)據(jù)的類(lèi)別。每個(gè)數(shù)據(jù)點(diǎn)將具有自己的屬性。由C4.5創(chuàng)建的決策樹(shù)提出了有關(guān)屬性值的問(wèn)題,并根據(jù)這些值對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)。標(biāo)記訓(xùn)練數(shù)據(jù)集,使C4.5成為監(jiān)督學(xué)習(xí)算法。決策樹(shù)始終易于解釋和說(shuō)明,與其他數(shù)據(jù)挖掘算法相比,這使C4.5快速且流行。2.K-均值算法K-均值是最常見(jiàn)的聚類(lèi)算法之一。它的工作方式是根據(jù)對(duì)象之間的相似性從一組對(duì)象中創(chuàng)建k個(gè)組。也許不能保證組成員將完全相似,但是與非組成員相比,組成員將更加相似。按照標(biāo)準(zhǔn)實(shí)現(xiàn),K-均值是一種無(wú)監(jiān)督學(xué)習(xí)算法,因?yàn)樗鼰o(wú)需任何外部信息即可自行學(xué)習(xí)聚類(lèi)。參考譯文3.支持向量機(jī)就任務(wù)而言,支持向量機(jī)(SVM)的工作方式類(lèi)似于C4.5算法,但支持向量機(jī)根本不使用任何決策樹(shù)。支持向量機(jī)學(xué)習(xí)數(shù)據(jù)集并定義一個(gè)超平面以將數(shù)據(jù)分為兩類(lèi)。超平面是一條線的方程,看起來(lái)像“y=mx+b”。支持向量機(jī)會(huì)把數(shù)據(jù)擴(kuò)展映射到更高的維度。一旦映射,支持向量機(jī)便定義了最佳的超平面,將數(shù)據(jù)分為兩個(gè)類(lèi)別。4.先驗(yàn)算法先驗(yàn)算法通過(guò)了解關(guān)聯(lián)規(guī)則來(lái)工作。關(guān)聯(lián)規(guī)則是一種數(shù)據(jù)挖掘技術(shù),用于了解數(shù)據(jù)庫(kù)中變量之間的相關(guān)性。一旦了解了關(guān)聯(lián)規(guī)則,就將其應(yīng)用于包含大量事務(wù)的數(shù)據(jù)庫(kù)。先驗(yàn)算法用于發(fā)現(xiàn)有趣的模式和相互關(guān)系,因此被視為無(wú)監(jiān)督學(xué)習(xí)方法。盡管該算法是高效的,但它會(huì)消耗大量?jī)?nèi)存、占用大量磁盤(pán)空間并花費(fèi)大量時(shí)間。參考譯文參考譯文5.期望最大化算法期望最大化(EM)用作聚類(lèi)算法,就像用于知識(shí)發(fā)現(xiàn)的K-均值算法一樣。EM算法以迭代方式工作,以更好地查看觀測(cè)數(shù)據(jù)。接下來(lái),它估計(jì)帶有未觀察到的變量的統(tǒng)計(jì)模型的參數(shù),從而生成一些觀察到的數(shù)據(jù)。EM算法也是無(wú)監(jiān)督學(xué)習(xí)方法,因?yàn)槲覀冊(cè)诓惶峁┤魏螛?biāo)記的類(lèi)信息的情況下使用它。6.PageRank算法PageRank通常被像谷歌等搜索引擎使用。它是一種鏈接分析算法,可確定對(duì)象網(wǎng)中鏈接的對(duì)象的相對(duì)重要性。鏈接分析是一種探索對(duì)象之間關(guān)聯(lián)的網(wǎng)絡(luò)分析。谷歌搜索通過(guò)了解網(wǎng)頁(yè)之間的反向鏈接來(lái)使用此算法。PageRank是谷歌用來(lái)確定網(wǎng)頁(yè)的相對(duì)重要性并將其在谷歌搜索引擎上排名更高的方法之一。PageRank商標(biāo)是谷歌的專(zhuān)有商標(biāo),PageRank算法由斯坦福大學(xué)獲得專(zhuān)利。PageRank被視為一種無(wú)監(jiān)督學(xué)習(xí)方法,因?yàn)樗鼉H通過(guò)考慮鏈接即可確定相對(duì)重要性,而無(wú)需任何其他輸入。7.Adaboost算法Adaboost是用于構(gòu)建分類(lèi)器的提升算法。分類(lèi)器是一種數(shù)據(jù)挖掘工具,可獲取數(shù)據(jù)并根據(jù)輸入預(yù)測(cè)數(shù)據(jù)的類(lèi)別。提升算法是一種集成學(xué)習(xí)算法,可運(yùn)行多種學(xué)習(xí)算法并將其組合。提升算法吸收一組弱學(xué)習(xí)法,并將它們組合成一個(gè)單一的強(qiáng)學(xué)習(xí)法。弱學(xué)習(xí)法對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的準(zhǔn)確性較低。弱算法的最佳示例是決策樹(shù)樁算法,它基本上是一個(gè)單步?jīng)Q策樹(shù)。Adaboost是完美的監(jiān)督學(xué)習(xí),因?yàn)樗梢砸缘绞焦ぷ鳎⑶以诿看蔚校际褂脴?biāo)記的數(shù)據(jù)集訓(xùn)練較弱的學(xué)習(xí)法。Adaboost是一種簡(jiǎn)單且非常直接的算法。在用戶(hù)指定輪數(shù)之后,每次連續(xù)的Adaboost迭代都會(huì)為每個(gè)最佳學(xué)習(xí)法重新定義權(quán)重。這使Adaboost成為自動(dòng)調(diào)整分類(lèi)器的絕佳方式。Adaboost具有靈活性、多功能性和簡(jiǎn)潔性,因?yàn)樗梢院喜⒋蠖鄶?shù)學(xué)習(xí)算法并可以處理大量數(shù)據(jù)。
參考譯文8.KNN算法KNN是一種用作分類(lèi)算法的消極學(xué)習(xí)算法。消極學(xué)習(xí)法在訓(xùn)練過(guò)程中除了存儲(chǔ)訓(xùn)練數(shù)據(jù)外不會(huì)做任何事情。消極學(xué)習(xí)法僅在輸入新的未標(biāo)記數(shù)據(jù)作為輸入時(shí)才開(kāi)始分類(lèi)。另一方面,C4.5、SVN和Adaboost是積極學(xué)習(xí)法,它們?cè)谟?xùn)練過(guò)程中就開(kāi)始建立分類(lèi)模型。由于為KNN提供了標(biāo)記的訓(xùn)練數(shù)據(jù)集,因此將其視為監(jiān)督學(xué)習(xí)算法。9.樸素貝葉斯算法樸素貝葉斯不是單個(gè)算法,盡管可以將其視為單個(gè)算法。樸素貝葉斯是一組分類(lèi)算法。該算法家族使用的假設(shè)是,要分類(lèi)的數(shù)據(jù)的每個(gè)特征都獨(dú)立于該類(lèi)中給出的所有其他特征。樸素貝葉斯用提供給自己的帶有標(biāo)簽的訓(xùn)練數(shù)據(jù)集來(lái)構(gòu)造表格。因此,它被視為監(jiān)督學(xué)習(xí)算法。參考譯文參考譯文10.CART算法CART代表分類(lèi)樹(shù)和回歸樹(shù)。它是一種決策樹(shù)學(xué)習(xí)算法,可將回歸樹(shù)或分類(lèi)樹(shù)作為輸出。在CART中,決策樹(shù)節(jié)點(diǎn)將恰好具有2
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 嵌入式設(shè)備調(diào)試方法試題及答案
- 網(wǎng)絡(luò)云計(jì)算技術(shù)測(cè)驗(yàn)題及答案
- 數(shù)據(jù)庫(kù)開(kāi)發(fā)中的協(xié)作工具與資源管理試題及答案
- 行政組織理論中的協(xié)同效應(yīng)分析試題及答案
- 公路工程考試面臨的知識(shí)更新挑戰(zhàn)試題及答案
- 突破2025年軟件測(cè)試工程師考試難度試題及答案
- 行政組織考試的系統(tǒng)化試題及答案
- 行政組織考試的備考指南試題及答案
- 專(zhuān)項(xiàng)公路工程復(fù)習(xí)試題及答案
- 整體把握的信息系統(tǒng)監(jiān)理師考試試題及答案
- 中職英語(yǔ)1 基礎(chǔ)模塊 Unit 3 shopping
- 廣東省廣州三校2023-2024學(xué)年高二下學(xué)期期末考試+政治試卷(含答案)
- 《男性困境:他們內(nèi)心的創(chuàng)傷、恐懼與憤怒》記錄
- 胃癌晚期護(hù)理查房
- 藥政與藥品生產(chǎn)質(zhì)量管理智慧樹(shù)知到答案2024年青島科技大學(xué)
- 《動(dòng)量定理》參考課件 04
- 借名貸款協(xié)議書(shū)范文范本
- 人教版高中數(shù)學(xué)A版 必修第1冊(cè)《第二章 一元二次函數(shù)、方程和不等式》大單元整體教學(xué)設(shè)計(jì)
- 職校招生宣傳課件
- 固體料倉(cāng)計(jì)算表格
- 臺(tái)球室用工合同范本
評(píng)論
0/150
提交評(píng)論