信息技術(shù)課件人工智能識(shí)文斷字理解文本_第1頁(yè)
信息技術(shù)課件人工智能識(shí)文斷字理解文本_第2頁(yè)
信息技術(shù)課件人工智能識(shí)文斷字理解文本_第3頁(yè)
信息技術(shù)課件人工智能識(shí)文斷字理解文本_第4頁(yè)
信息技術(shù)課件人工智能識(shí)文斷字理解文本_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

識(shí)文斷字:理解文本《人工智能基礎(chǔ)》(高中版)第七章人工智能中學(xué)2019年6月6日文本數(shù)據(jù)建立傳統(tǒng)圖書信息服務(wù)的三大要素圖書、報(bào)刊(知識(shí)的重要化身)圖書館(知識(shí)的殿堂)圖書管理員(知識(shí)的保護(hù)者與傳播的代理人)網(wǎng)絡(luò)的世界是一個(gè)虛擬化的電子圖書館書有了新的形式(網(wǎng)頁(yè)、應(yīng)用)圖書館有了新的平臺(tái)(網(wǎng)絡(luò)服務(wù)器)圖書管理員有了新的競(jìng)爭(zhēng)者(搜索引擎)導(dǎo)言我們每天都會(huì)遇到各種各樣的文本數(shù)據(jù),但大部分是非結(jié)構(gòu)化的,并不是全部都是有價(jià)值的。潛在語(yǔ)義分析(LSA)計(jì)算機(jī)從海量的文本數(shù)據(jù)中心自動(dòng)發(fā)掘出潛在的主題,進(jìn)而完成對(duì)文本內(nèi)容的概括與提煉。借助導(dǎo)言01任務(wù)的特點(diǎn)02文本的特征03高屋建瓴:發(fā)掘文本中潛在的主題04投其所好:給予主題的文本搜索與推薦目錄01任務(wù)的特點(diǎn)無(wú)監(jiān)督學(xué)習(xí)算法語(yǔ)料庫(kù)文檔主題日常獲得的文本數(shù)據(jù)(無(wú)任何主題標(biāo)記)消息本體人工標(biāo)注(海量規(guī)模,代價(jià)高昂)K均值算法(對(duì)文本數(shù)據(jù)進(jìn)行聚類,但類別單一)潛在語(yǔ)義分析技術(shù)(可分析出多個(gè)潛在的主題)/一整年的報(bào)紙//報(bào)紙上的一篇文章//政治、經(jīng)濟(jì)、教育、科技、民生等/例如教育主題政治主題02文本的特征詞袋模型BoW(bag-of-wordsmodel)文檔裝有若干詞語(yǔ)的袋子(二元組)銘銘:1銘銘喜歡打籃球,也喜歡打乒乓球。喜歡:2打:2籃球:1也:1乒乓球:1詞語(yǔ):出現(xiàn)次數(shù)詞典1(所有詞匯均出現(xiàn))序號(hào)123456詞語(yǔ)銘銘喜歡打籃球也乒乓球特征向量次計(jì)數(shù)向量n=(1,2,2,1,1,1)詞頻向量f=(1/8,1/4,1/4,1/8,1/8,1/8)詞典2(只包含部分詞匯)序號(hào)1234詞語(yǔ)銘銘喜歡籃球乒乓球次計(jì)數(shù)向量n=(1,2,1,1)詞頻向量f=(1/5,2/5,1/5,1/5)例102文本的特征銘銘喜歡打籃球,也喜歡打乒乓球。例2文檔1銘銘去公園放風(fēng)箏。文檔2銘銘的學(xué)校開設(shè)了人工智能課程。文檔3語(yǔ)料庫(kù)詞典序號(hào)1234詞語(yǔ)銘銘喜歡打籃球序號(hào)5678詞語(yǔ)也乒乓球去公園序號(hào)9101112詞語(yǔ)放風(fēng)箏的學(xué)校序號(hào)13141516詞語(yǔ)開設(shè)了人工智能課程統(tǒng)計(jì)文檔中出現(xiàn)各詞語(yǔ)的次數(shù)特征向量(次計(jì)數(shù)向量)銘銘喜歡打籃球也……課程文檔112211……0文檔210000……0文檔310000……1n1=(1,2,1,1,…,0)n2=(1,0,0,0,…,0)n3=(1,0,0,0,…,1)02文本的特征詞袋模型應(yīng)用的基本流程中文分詞文檔詞袋刪除停止詞與低頻詞詞典統(tǒng)計(jì)詞頻率計(jì)算詞頻率—逆文檔頻率詞頻特征詞頻率—逆文檔頻率特征英文:以空格和標(biāo)點(diǎn)符號(hào)為依據(jù)中文:需借助額外的分詞技術(shù)(基于匹配與統(tǒng)計(jì)學(xué)方法)停止詞:不攜帶任何主體信息的高頻詞(如:的、也、了)低頻詞:不常用的專有名詞詞頻率—逆文檔頻率反映一個(gè)詞語(yǔ)對(duì)于一篇文檔的重要性逆文檔頻率:文檔頻率的負(fù)對(duì)數(shù)修正每個(gè)詞語(yǔ)在每篇文檔中的重要性(僅詞頻率高,該詞的重要性不一定高)03高屋建瓴:發(fā)掘文本中潛在的主題一篇文檔通常飽含若干個(gè)主題,每個(gè)主題對(duì)應(yīng)一個(gè)詞頻向量。比重不同潛在主題:T個(gè)每個(gè)主題對(duì)應(yīng)一個(gè)詞頻向量:tj=(xj1,xj2,…,xjV)1≤j≤T詞典大小:V各主題的比重:w1,w2,…,wT文檔的詞頻向量:d=(y1,y2,…,yT

)d=w1t1+w2t2+…+wTtV03高屋建瓴:發(fā)掘文本中潛在的主題d=w1t1+w2t2+…+wTtVd=wTD=WT語(yǔ)料庫(kù)中有D篇文檔文檔詞頻:D主題比重:W主題詞頻:T矩陣簡(jiǎn)化矩陣簡(jiǎn)化矩陣乘法示意圖03高屋建瓴:發(fā)掘文本中潛在的主題D=WT文檔詞頻(已知:通過統(tǒng)計(jì)語(yǔ)料庫(kù)得到)語(yǔ)料庫(kù)中所有潛在的主題每一篇文檔中各個(gè)主題的比重主題模型僅僅通過加權(quán)平均建立語(yǔ)料庫(kù)要簮之間的關(guān)系需通過非負(fù)矩陣分解法,使公式左右兩邊盡量接近,得解04投其所好:給予主題的文本搜索與推薦傳統(tǒng)搜索引擎一詞多義問題近義詞問題主題模型+潛在語(yǔ)義分析在搜索過程中對(duì)文檔的主題加以考察,克服關(guān)鍵詞的局限例如:使用關(guān)鍵詞“水分”進(jìn)行搜索,指定“科學(xué)”這以主題,過濾和“虛假”相關(guān)的文章

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論