




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、據(jù)與深度學(xué)習(xí)之間的關(guān)系和差異網(wǎng)絡(luò)上從不缺乏對(duì)數(shù)據(jù)科學(xué)術(shù)語進(jìn)行比較和對(duì)比的文章。文筆各 異的人寫出了各式各樣的文章,以此將他們的觀點(diǎn)傳達(dá)給任何愿意傾 聽的人。這幾乎是勢(shì)不可擋的。所以我也記錄一下,對(duì)于那些疑惑此文是否也是雷同的帖子。對(duì), 為什么再來一帖?我是這樣想的,盡管可能有很多分散觀點(diǎn)在定義 和比較這些關(guān)聯(lián)術(shù)語,但事實(shí)上是,這些術(shù)語中的大部分是流動(dòng)變化 的,并不完全約定俗成,坦率地說,與他人觀點(diǎn)一同暴露是測(cè)試和優(yōu) 化自己的觀點(diǎn)的最好方法之一。所以,雖然大家可能不會(huì)完全(甚至是極低限度地)同意我對(duì)這些術(shù) 語的大部分看法,但仍然能從中獲得一些東西。數(shù)據(jù)科學(xué)中的一些核 心概念需要被解釋,或者至少在
2、我看來是重要的,我會(huì)盡力闡述他們 如何關(guān)聯(lián),以及答疑這些個(gè)體概念組合在一起時(shí)遇到的困惑。在獨(dú)立地思考概念之前,有個(gè)不同觀點(diǎn)的例子, KDnuggets 的 Gregory Piatetsky-Shapiro 的維恩圖,概述了我們將要討論的數(shù)據(jù)科 學(xué)術(shù)語之間的關(guān)系。建議讀者將此維恩圖與目前 Drew Conway 的著 名的數(shù)據(jù)科學(xué)維恩圖,以及我下面的討論和帖子底部的修改過程 /關(guān)系 圖進(jìn)行比較。我認(rèn)為,盡管存在差異,但這些概念具有一定的相似性。現(xiàn)在我們將對(duì)上述維恩圖中圈選的 6 個(gè)核心概念進(jìn)行分析,并提 供一些關(guān)于如何將它們?nèi)谌霐?shù)據(jù)科學(xué)的洞察。我們很快就會(huì)摒棄過去 術(shù)語。大數(shù)據(jù)(Big Dat
3、a)有各種各樣的文章在定義大數(shù)據(jù),我不打算花太多時(shí)間在這個(gè)概 念上。簡單地來說,大數(shù)據(jù)通常被定義為“超出常用軟件工具捕獲, 糊 又準(zhǔn)確,足以捕捉其主要特征。至于其他的概念,我們將通過調(diào)查,很好的獲得搜索字詞的流行 度和 N-gram 頻率模型的一些初步了解,以便將這個(gè)難點(diǎn)與熱點(diǎn)炒作 至 2008 年, N-gram 頻 率模型作為一個(gè)“舊”的概念被闡述。 以及最后一個(gè)逐漸下降但有明顯的下降。請(qǐng)注意,由于已經(jīng)對(duì)數(shù)據(jù)進(jìn)行了定量分析,大數(shù)據(jù)未包含在上述圖形中。繼續(xù)閱讀,以便進(jìn) 機(jī)器學(xué)習(xí)(Machine learning)據(jù) Tom Mitchell 在關(guān)于這個(gè)主題的創(chuàng)作書中闡述,機(jī)器學(xué)習(xí)“關(guān) 心的問
4、題是如何構(gòu)建計(jì)算機(jī)程序使用經(jīng)驗(yàn)自動(dòng)改進(jìn)”。機(jī)器學(xué)習(xí)本質(zhì) 上是跨學(xué)科的,采用計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué)和人工智能等方面的技術(shù)。 機(jī)器學(xué)習(xí)研究的主要工作是促進(jìn)經(jīng)驗(yàn)自動(dòng)改進(jìn)的算法,可以應(yīng)用于各 我不認(rèn)為有人會(huì)懷疑機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心組成。我在下面 給出數(shù)據(jù)科學(xué)的詳細(xì)描述,如果你認(rèn)為在一個(gè)非常高的水平上其目標(biāo) 是從數(shù)據(jù)中獲取洞察力,其實(shí)機(jī)器學(xué)習(xí)是允許此過程自動(dòng)化的。機(jī)器 學(xué)習(xí)與古典統(tǒng)計(jì)學(xué)有很多共同點(diǎn),因?yàn)樗褂脴颖緛硗茢嗪透爬ā?shù) 據(jù)統(tǒng)計(jì)更多地側(cè)重于描述性(盡管可以通過外推來預(yù)測(cè)) ,機(jī)器學(xué)習(xí)對(duì)描 述性分析的關(guān)注很少,并且僅將其用作中間步驟以便能夠進(jìn)行更好預(yù) 測(cè)。機(jī)器學(xué)習(xí)通常被認(rèn)為是模式識(shí)別的同義詞 ;真
5、的不會(huì)從我這里發(fā)生 太多的分歧,我相信,模式識(shí)別這個(gè)術(shù)語意味著實(shí)際上是一個(gè)比 機(jī)器學(xué)習(xí)更不復(fù)雜和更簡單化的過程,這就是為什么我傾向于回避它。機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘有著復(fù)雜的關(guān)系。數(shù)據(jù)挖掘(Data Mining) 中提取模式的特定算法的應(yīng)用”。這表明,在數(shù)據(jù)挖掘中,重點(diǎn)在于 算法的應(yīng)用,而不是算法本身。我們可以定義機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘之 間的關(guān)系如下:數(shù)據(jù)挖掘是一個(gè)過程,在此過程中機(jī)器學(xué)習(xí)算法被用 作提取數(shù)據(jù)集中的潛在有價(jià)值模式的工具。語,也是數(shù)據(jù)科學(xué)的關(guān)鍵。 在數(shù)據(jù)科學(xué)術(shù)語爆發(fā)泛濫之前,事實(shí)上,數(shù)據(jù)挖掘在 Google 搜索 術(shù)語中取得了更大的成功。看看 Google 趨勢(shì)比上圖顯示的還要早 5
6、年,數(shù)據(jù)挖掘曾經(jīng)更受歡迎。然而,今天,數(shù)據(jù)挖掘似乎被劃分 為機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)之間的概念。若有人同意上述解釋,數(shù)據(jù)挖掘 是一個(gè)過程,那么將數(shù)據(jù)科學(xué)視為數(shù)據(jù)挖掘的超集,那么后續(xù)的術(shù)語深度學(xué)習(xí)(Deep Learning)盡管在早期的在線搜索急劇爆發(fā)之前它已經(jīng)存在,深度學(xué)習(xí) 仍是一個(gè)相對(duì)較新的術(shù)語。由于學(xué)術(shù)研究和工業(yè)的蓬勃發(fā)展,其在不 同領(lǐng)域取得了巨大成就,深度學(xué)習(xí)是應(yīng)用深層神經(jīng)網(wǎng)絡(luò)技術(shù) (即具有多 個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)架構(gòu) )來解決問題。深度學(xué)習(xí)是一個(gè)類似數(shù)據(jù)挖掘 的過程,它采用深層神經(jīng)網(wǎng)絡(luò)架構(gòu),這是特定類型的機(jī)器學(xué)習(xí)算法。深度學(xué)習(xí)已經(jīng)取得了令人印象深刻的成就。有鑒于此,至少在我 看來,務(wù)必要注意
7、幾點(diǎn):深度學(xué)習(xí)不是靈丹妙藥 對(duì)于每個(gè)問題來說,并不是一個(gè)簡單一 這不是傳說中的萬能算法 深度學(xué)習(xí)不會(huì)取代所有其他機(jī)器學(xué)習(xí) 算法和數(shù)據(jù)科學(xué)技術(shù),至少還沒有被證明是這樣。適度的期望是必要的 盡管最近在各種類型的分類問題上,特別 是計(jì)算機(jī)視覺和自然語言處理以及強(qiáng)化學(xué)習(xí)等領(lǐng)域已經(jīng)取得了巨大的 進(jìn)步,但當(dāng)代深度學(xué)習(xí)并沒有擴(kuò)大到非常復(fù)雜的問題,例如“解決世 深度學(xué)習(xí)和人工智能不是同義詞。深度學(xué)習(xí)可以幫助數(shù)據(jù)科學(xué)以附加過程和工具的形式解決問題, 而在這種觀察中,深入學(xué)習(xí)是數(shù)據(jù)科學(xué)領(lǐng)域的一個(gè)非常有價(jià)值的補(bǔ)充。人工智能大多數(shù)人發(fā)現(xiàn)人工智能很難用一個(gè)精確的,甚至是廣泛的定義講 出來。我不是一個(gè)人工智能研究者,所以
8、我的答案可能與其他領(lǐng)域的 人差別很大。多年來通過對(duì) AI 的思想哲學(xué)研究,我得出的結(jié)論是,人 工智能,至少我們通常認(rèn)為的想法的概念,實(shí)際上并不存在。在我看來, AI 是一個(gè)標(biāo)尺,一個(gè)移動(dòng)目標(biāo),一個(gè)渴望而不可及的 目標(biāo)。每當(dāng)我們邁向 AI 成就之路,不知何故,這些成就似乎又變成了 我曾經(jīng)讀過如下內(nèi)容:如果你在上世紀(jì)60 年代問 AI 的研究人員, 他們對(duì) AI 的想法是什么,他們可能會(huì)一致認(rèn)為,可以幫助我們預(yù)測(cè)下一步行動(dòng)和欲望,所有人類知識(shí)可以隨時(shí)獲取,一個(gè)適合我們口袋的 小型設(shè)備就是真實(shí)的 AI。但是今天我們都攜帶智能手機(jī),很少有人會(huì) AI 適合數(shù)據(jù)科學(xué)?嗯,正如我所說,我不認(rèn)為 AI 真的是
9、有形的, 我想很難說它適合任何地方。但,一些數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域, 人工智能可以提供助力,有時(shí)與實(shí)體一樣有價(jià)值 ;計(jì)算機(jī)視覺肯定會(huì)引 起注意,現(xiàn)代深度學(xué)習(xí)研究也是如此,得益于人工智能的精神氣質(zhì), AI 可能是研究和開發(fā)設(shè)備,從來沒有在同名行業(yè)中產(chǎn)生任何東西。 我想說,從 AI 到數(shù)據(jù)科學(xué)的這條路徑可能不是查看兩者之間的關(guān)系的 最佳方式,但是兩個(gè)實(shí)體之間的許多中間步驟已經(jīng)被 AI 以某種形式開 數(shù)據(jù)科學(xué)(Data Science)那么,在討論這些相關(guān)概念和數(shù)據(jù)科學(xué)的地位之后,數(shù)據(jù)科學(xué)究 竟是什么呢?對(duì)我來說,這是試圖精確定義的一個(gè)最難的概念。數(shù)據(jù)科 學(xué)是一個(gè)多方面的學(xué)科,包括機(jī)器學(xué)習(xí)和其他
10、分析過程,統(tǒng)計(jì)學(xué)和相 關(guān)的數(shù)學(xué)分支,越來越多地從高性能科學(xué)計(jì)算中借鑒,以便最終從數(shù) 據(jù)中發(fā)現(xiàn)洞察,并使用這些新發(fā)現(xiàn)的信息來講述故事。這些故事通常 伴隨著圖片(我們稱之為可視化) ,并針對(duì)行業(yè),研究甚至是我們自己, 目的是從數(shù)據(jù)中獲取一些新的想法。數(shù)據(jù)科學(xué)采用相關(guān)領(lǐng)域的各種不同工具(請(qǐng)參閱上面所有內(nèi)容)。數(shù) 據(jù)科學(xué)既是數(shù)據(jù)挖掘的同義詞,也是數(shù)據(jù)挖掘概念的超集。數(shù)據(jù)科學(xué)產(chǎn)生各種不同的結(jié)果,但它們都具有共同的洞察力。數(shù) 據(jù)科學(xué)是這一切,而且對(duì)你而言,它可能還有別的東西,而且甚至還 沒有涵蓋獲取,清理,判別和預(yù)處理數(shù)據(jù) !順便說一下,什么是數(shù)據(jù)呢 ? 它總是大嗎?我認(rèn)為我的關(guān)于數(shù)據(jù)科學(xué)困惑的觀點(diǎn),至少可以通過上圖的版本 來代表它,以及這篇文章的頂部的 Piatetsky-Shapiro 的維恩圖。我也 建議大多數(shù)與 Drew Conway 的數(shù)據(jù)科學(xué)維恩圖一致,盡管我會(huì)補(bǔ)充 一點(diǎn):我認(rèn)為他非常合理且實(shí)用的圖像實(shí)際上是指數(shù)據(jù)科學(xué)家,而不是數(shù)據(jù)科學(xué)。這可能是吹毛求疵,但我不認(rèn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年子公司策劃合作實(shí)施協(xié)議書范例
- 2025年合作策劃服裝加工廠業(yè)務(wù)拓展協(xié)議書樣本
- 2025年國際商標(biāo)注冊(cè)互惠合作協(xié)議
- 2025年庫位使用權(quán)策劃分配協(xié)議書
- 2025年后勤食堂食材采購協(xié)議范本
- 2025年上海市車牌租賃協(xié)議策劃簡版
- 增強(qiáng)品牌影響力的國際化路徑
- 2025年小學(xué)教師資格考試《綜合素質(zhì)》教育創(chuàng)新實(shí)踐題教育創(chuàng)新理念試題試卷
- 2025年教師資格證保教知識(shí)與能力(幼兒園)真題密卷與答案解析
- 色彩運(yùn)用分析基礎(chǔ)知識(shí)點(diǎn)歸納
- 縣政府工作調(diào)動(dòng)文件范本
- 特種設(shè)備風(fēng)險(xiǎn)管控清單
- 配電箱產(chǎn)品質(zhì)量保證書
- 現(xiàn)代企業(yè)管理理論與實(shí)務(wù)
- 一年級(jí)100以內(nèi)計(jì)算練習(xí)題(口算、豎式)-100以內(nèi)的計(jì)算題
- 中亞高校漢語國際教育發(fā)展現(xiàn)狀研究
- 《新求精德語強(qiáng)化教程 中級(jí)Ⅱ》(第三版)學(xué)習(xí)指南【詞匯短語+單元語法+課文精解+全文翻譯+練習(xí)答案】
- 蘇教版六年級(jí)下冊(cè)數(shù)學(xué)《3、可能性》課件
- 美國超聲心動(dòng)圖學(xué)會(huì)推薦的成人右心功能評(píng)價(jià)指南的解讀
- 慢病健康管理 高血壓患者隨訪評(píng)估與分類干預(yù)
- 夏季防暑降溫培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論