




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
超圖(Hypergraph)理論與應(yīng)用劉未鵬1a動機(jī)(Motivation)什么是共指消解(CoreferenceResolution)共指消解的各種方法圖分割(GraphPartitioning)方法簡單圖分割方法的潛在缺陷引入超圖(Hypergraph)的意義2a超圖(Hypergraph)超圖的定義超圖的分割超圖真比簡單圖優(yōu)越嗎?如何將超圖運(yùn)用到共指消解中3a什么是共指消解[李明i]怕[高媽媽j]一人呆在家里寂寞,[他i]便將[他自己i]家里的電視搬了過來給[她j]。4a共指消解的方法規(guī)那么方法利用句法層面的知識,進(jìn)行啟發(fā)式消解。統(tǒng)計(jì)方法基于訓(xùn)練語料庫,統(tǒng)計(jì)出概率分布,然后進(jìn)行預(yù)測。機(jī)器學(xué)習(xí)決策樹、樸素貝葉斯、規(guī)那么學(xué)習(xí)等等。圖方法以節(jié)點(diǎn)表示名詞短語,以邊表示名詞短語間的共指關(guān)聯(lián)度。5a圖方法節(jié)點(diǎn)表示名詞短語邊表示短語與短語之間的某種關(guān)聯(lián)(這種關(guān)聯(lián)必須要對“共指〞起到奉獻(xiàn),如人稱、性別、單復(fù)數(shù)等屬性)邊的權(quán)值用來表示這種關(guān)聯(lián)對共指起到的奉獻(xiàn)的大小6a簡單圖一條邊只能連接兩個頂點(diǎn)7a超圖一條邊可以連接多個頂點(diǎn)8a為什么引入超圖(一個例子)簡單圖版本喪失了“同一作者的多篇文章〞這一信息,而超圖版本那么保存了這一信息。在共指消解里面,也有類似的信息,比方“多個指代的性別(gender)相同〞、“多個指代的數(shù)量相同〞(即同為單數(shù)或同為復(fù)數(shù))等。頂點(diǎn)代表文章,每條邊代表兩個頂點(diǎn)〔文章〕享有同一個作者9a為什么引入超圖(一個例子)假設(shè)有三篇文章,v1,v2,v3。它們的作者分別是:v1:A,Bv2:B,Cv3:C,D如果v1:A,Bv2:A,Cv3:A,D10a簡單圖的分割目標(biāo):使分割出來的兩個子圖之間的關(guān)聯(lián)最小問題:如何定義“關(guān)聯(lián)最小〞?11a簡單圖分割的數(shù)學(xué)表達(dá)分割子圖間關(guān)聯(lián)最小
=跨分割邊界的所有邊的權(quán)值之和最小鄰接矩陣(AdjacencyMatrix)A(i,j)=頂點(diǎn)i和頂點(diǎn)j之間的所有邊的權(quán)值之和MinCut(G+,G-),根據(jù)二次型表達(dá)式等價于:MaxYYTAY,其中Yi∈{+1,-1};12a簡單圖分割的問題問題:導(dǎo)致退化的分割13aNormalized-Cut僅僅做到跨邊界的權(quán)值和最小還不夠,因?yàn)榭赡艽嬖谝恍┕铝Ⅻc(diǎn),它們跟外界的聯(lián)系本身就極小,于是很可能被獨(dú)立分割出來。14aNormalized-Cut解決思想:一個cut是“好的〞當(dāng)且僅當(dāng)對任意一個子圖來說,從子圖中的節(jié)點(diǎn)出發(fā)跨越分割邊界的邊的權(quán)值和相比于從子圖節(jié)點(diǎn)出發(fā)的所有邊的權(quán)值和的比例越小越好。通俗來說就是:任一分割出來的子圖跟外界的聯(lián)系主要來自該子圖內(nèi)部。15aNormalized-CutNP-Hard16a拉普拉斯矩陣(LaplacianMatrix)17a譜(Spectrum)方法NP-Hard譜方法逼近解minz(ZTLZ/ZTZ)其中Zi∈{r+,r-};r+=√|{i:zi<0}|/|{i:zi>0}|r-=√|{i:zi>0}|/|{i:zi<0}|不變式:ZTZ=n;ZT1=0;含義:L是拉普拉斯矩陣L=B–A18a
超圖理論的目標(biāo)
將簡單圖的表達(dá)泛化為超圖表達(dá),將簡單圖分割算法推廣到超圖分割之上,并證明超圖分割和簡單圖分割的內(nèi)在標(biāo)準(zhǔn)(criteria)是一致的19a超圖的表示關(guān)鍵是超邊如何表示:用一個點(diǎn)集來表示。令V是一個頂點(diǎn)集合V={v1,v2,v3,v4,v5,v6,v7};那么每一條超邊都是V的一個子集E={e1,e2,e3,e4}={{v1,v2,v3},{v2,v3},{v3,v5,v6},{v4}}20a
超圖的矩陣表達(dá)頂點(diǎn)的度d(v)超邊的度超圖的矩陣表達(dá)21a
超圖的鄰接矩陣其中W是一對角陣,對角線元素為各超邊的權(quán)值。A是超圖的鄰接矩陣按右邊方法表示的A(超圖的鄰接矩陣),A(i,i)為0,A(i,j)為vi和vj共享的所有超邊的權(quán)值和。Dv為一對角陣,對角線元素為各頂點(diǎn)的度d(v)。22a
超圖的分割(cut)如何將簡單圖的分割標(biāo)準(zhǔn)推廣到超圖上面?23a
理解超圖cut的含義將被切割的每一條超邊看作一個子圖,其中每兩個頂點(diǎn)都是兩兩相連的,連接的權(quán)值皆為w(e)/(e的度)。該子圖被切割為e∩G+和e∩G-個頂點(diǎn),因此被切斷的邊一共有|e∩G+||e∩G-|個。24a
超圖的Normalized-Cut超圖和簡單圖的Normailzed-cut是形式一致的25a
超圖的Normailzed-Cut26a隨機(jī)游走(RandomWalk)27a超圖分割的隨機(jī)游走解釋意義:證明超圖分割確實(shí)是簡單圖分割的一個妥善的推廣,這對超圖分割算法的有效性至關(guān)重要。圖分割的隨機(jī)游走解釋:一個最優(yōu)分割須使得隨機(jī)游走落在同一個子圖中的概率最大,同時隨機(jī)游走跨越分割邊界的幾率最小。目標(biāo):證明超圖分割也滿足同樣的隨機(jī)游走性質(zhì)。28a什么是隨機(jī)游走(RandomWalk)
GooglePagerank算法29aGooglePagerank算法根本模型:用一個向量I來代表所有頁面的重要性,I的第i個分量Ii就是第i個頁面的重要性;另,假設(shè)一個頁面有l(wèi)j個向其它頁面的鏈接,那么每個被指向的頁面都得到該頁面的1/lj的重要性;同時假設(shè)一個頁面的重要性完全來自指向它的頁面的奉獻(xiàn)數(shù)學(xué)表達(dá):其中Pj表示第j個頁面。lj表示第j個頁面上的鏈接數(shù),Pj∈Bi表示第j個頁面指向Pi。這么多頁面,它們互相之間都有一堆鏈接,我怎么知道一個特定的頁面的重要性是多少呢?30aGooglePageRank算法31aGooglePagerank算法如何計(jì)算I=HI中的I?(I是H的一個特征向量,對應(yīng)特征值為1)迭代法:Ik+1=HIk32aGooglePagerank算法33aGooglePagerank算法問題:鏈接黑洞(只進(jìn)不出)34aGooglePagerank算法解決:隨機(jī)游走(RandomWalk)理論假設(shè)你是一個網(wǎng)絡(luò)爬蟲,在網(wǎng)絡(luò)上跟著頁面鏈接隨機(jī)的游走。那么,當(dāng)你發(fā)現(xiàn)自己停在一個頁面Pj上,而Pj共有l(wèi)j個鏈接,其中一個指向Pi,那么你下一步游走到Pi的幾率就是1/lj。在你隨機(jī)游走的整個過程中,假設(shè)你停留在Pj上的時間是Tj,那么你停留在Pi上的時間就是:隨機(jī)游走模型跟頁面重要性模型是一致的隨機(jī)游走模型跟頁面重要性模型是一致的35aGooglePagerank算法隨機(jī)游走到頁面2(一個鏈接黑洞)的時候,盡管沒有鏈接,但我們可以假設(shè)下一步游走等概率游走到任意一個其它頁面,即于是36a
超圖分割de隨機(jī)游走解釋p(u,v)表示從頂點(diǎn)u隨機(jī)游走到頂點(diǎn)v的概率。pi
(v)表示隨機(jī)游走停留在v上的概率。37a
超圖分割de隨機(jī)游走解釋38a
超圖分割的隨機(jī)游走解
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)自動化中的機(jī)器人技術(shù)探討
- 工業(yè)自動化技術(shù)與應(yīng)用領(lǐng)域探討
- 工業(yè)自動化技術(shù)的未來趨勢分析
- 工業(yè)設(shè)計(jì)與品牌建設(shè)的策略
- 工業(yè)設(shè)計(jì)與產(chǎn)品設(shè)計(jì)思路分享
- 工作中的溝通技巧與效率關(guān)系
- 工作中的創(chuàng)新方法與實(shí)踐案例分享
- 工作與生活平衡的實(shí)踐方法
- 工程機(jī)械設(shè)備行業(yè)發(fā)展現(xiàn)狀與趨勢
- 工廠節(jié)能減排技術(shù)推廣
- 定額〔2025〕3號文-關(guān)于發(fā)布2023版西藏地區(qū)電網(wǎng)工程概預(yù)算定額價格水平調(diào)整的通知
- 《現(xiàn)場改善案例集》課件
- 醫(yī)院結(jié)核感染培訓(xùn)
- 大學(xué)生應(yīng)急救護(hù)知到智慧樹章節(jié)測試課后答案2024年秋西安歐亞學(xué)院
- 臨床心內(nèi)科主任競聘稿
- 電動工器具安全使用培訓(xùn)
- 防水工程專項(xiàng)施工方案
- 日本建設(shè)項(xiàng)目可視化、安全文明、工藝管理總結(jié)
- 【MOOC】思想道德與法治-南開大學(xué) 中國大學(xué)慕課MOOC答案
- 網(wǎng)絡(luò)管理與維護(hù)綜合實(shí)訓(xùn)課程
- 遼寧大學(xué)《材料力學(xué)》2021-2022學(xué)年第一學(xué)期期末試卷
評論
0/150
提交評論