1006大設(shè)計(jì)翻譯版-高工以_第1頁(yè)
1006大設(shè)計(jì)翻譯版-高工以_第2頁(yè)
1006大設(shè)計(jì)翻譯版-高工以_第3頁(yè)
1006大設(shè)計(jì)翻譯版-高工以_第4頁(yè)
1006大設(shè)計(jì)翻譯版-高工以_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余45頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本人我,本及其研究工作是由在導(dǎo)師指導(dǎo)下獨(dú)立完成的,在完成時(shí)所利用的一切資料均參考文獻(xiàn)中列出。時(shí)間:20146Author:YuWuTutor:ZhoujunLIWiththerapiddevelopmentofInternettechnology,gettinginformationfromInternethaseanintegralpartofpeople’sdailylives.Acomprehensiveandaccurateencyclopedicentriesisthemainwayofaccesstoknowledge.Nowadays,therearemanyencyclopedicsystemsinthefieldofChinese,suchasBaiduBaike,HudongBaikeand360Baike.Bycontrast,WikipediadominatedEnglishmarket.However,Wikiarticlegenerationwouldbetediousforhumanstoperforminsituationswheretheinformationisunfamiliartothe orrelatedinformationisdeeplyandsparselyburiedinlargetyofwebpages.Thispaperproposesanovelmethodforwikiarticlegenerationautomatically,toreducehumanlabor,aswellgivinganevaluationresultswithInfoboxgeneration.WeuseCRFmodeltoextractcorrespondvaluegivenattribute.Inevaluationpart,wetestFscoreonbirthdaybirthplacespouseandoccupationattribute. summarizationtechnologytoaggregateinformationwhichwasscatteredonInternet.Article WemineentityrelatedtopicsfromCQA,KB,andqueryThenwegeneratemultiparagraphsforeach:NaturalLanguagegeneration,multissummarization,information topicdetection 緒 課題背景及意 國(guó)內(nèi)外研究狀 百科信息框生成算 百科算 百科文檔生成算 課題研究?jī)?nèi) 最優(yōu)屬性-值對(duì)的選 簡(jiǎn)介部分的生 正文部分的生 構(gòu) 相關(guān)技術(shù)簡(jiǎn) 多文檔技 基于驅(qū)動(dòng)的多文本技 基于質(zhì)心的多文檔基于LexRank的多文檔文本分類技 文本分類算 CRF序列標(biāo) 本章小 Infobox生 系統(tǒng)流程 訓(xùn)練集生 CRF應(yīng) 算法評(píng) 本章小 4生 4.1自動(dòng)生成系統(tǒng)流 網(wǎng)頁(yè)爬 網(wǎng)頁(yè)源代碼Html解 網(wǎng)頁(yè)主干提 文本分 特征選 分類 多文本基于向量空間的句子相似度計(jì) 基于質(zhì)心的文檔算 句子權(quán)重計(jì) 冗余處 調(diào) 實(shí)際結(jié)果展 評(píng) 本章小 5正文部分生 系統(tǒng)流程 節(jié)標(biāo)題選 社區(qū)問(wèn)答挖 搜索日志挖 挖 爬 文本評(píng) 社區(qū)挖掘評(píng) 正文評(píng) 實(shí)際效果展 本章小 結(jié) 工作總 下一步工 致 參考文 緒取知識(shí)的的重要來(lái)源。百科,百科等都已經(jīng)成了互聯(lián)網(wǎng)上很大的流量。圖1.1百科示百科的文章由三部分(信息框(后面以Infobox指代,部分,正文部分)值出現(xiàn)時(shí),學(xué)習(xí)此時(shí)的詞語(yǔ)依存關(guān)系,并利用WordNet中的同義詞,拓展模型所覆蓋的詞通過(guò)小規(guī)模標(biāo)注數(shù)據(jù)[2,3],頁(yè)模板抽取,關(guān)心哪些htmltag下有合適的信息OpenIE的在訓(xùn)練集中標(biāo)注一些例子。WOE[5]利用的Infobox當(dāng)做訓(xùn)練集利用Infobox里面的百科算圖1.2百科部最初一些研究者[6]提出了根據(jù)實(shí)體名抽取語(yǔ)言模板的辦法。利用了依存樹(shù),句]通過(guò)idf的計(jì)算來(lái)證明一個(gè)句子的重要程度,并且按重要程度給句子進(jìn)行排序。最終根據(jù)冗余消除算法,來(lái)使達(dá)到特定的長(zhǎng)度。n-gram要的章節(jié)題目。之后通過(guò)TF-IDF算法算出每個(gè)章節(jié)里面最需要的詞。他們利用實(shí)引擎上,將返回的文檔當(dāng)做這個(gè)下的段落內(nèi)容。也有一些學(xué)者[10],提出了一種和無(wú)關(guān)的百科正文生成算法。和[19]最優(yōu)屬性-信度得分高,則將此屬性-值對(duì)放入infobox。之后再選取每個(gè)章節(jié)中最合適以及最需要的。選完之后,將運(yùn)行查詢請(qǐng)求再生成算法,將原先由詞+實(shí)體名組成的查詢請(qǐng)求,變成意思相同的更適合搜索引擎的第四章設(shè)計(jì)百科部分自動(dòng)生成算法。利用從互聯(lián)網(wǎng)所收集的相關(guān)資源,通第五章設(shè)計(jì)百科正文部分自動(dòng)生成算法。通過(guò)對(duì)搜索日志的挖掘,生成最適合的

相關(guān)技術(shù)簡(jiǎn)基于驅(qū)動(dòng)的多文本技Carbonell提出了一種驅(qū)動(dòng)的多文檔算法。此種算法為請(qǐng)求依賴的(query-每次迭代計(jì)算時(shí)候,對(duì)候選文檔????∈??/??MMR(almarginalrelevance最大邊際相關(guān)性)MMR(????)=λ??????1(????,??)?(1???)max??????2(????, λ為平衡相關(guān)性和獨(dú)特性的權(quán)重,取值0到1之間。Sim函數(shù)在不同的應(yīng)用中,定義不同,時(shí)候定義為余弦相似性。在做抽取的算法中,每次取MMR結(jié)果最大的句子在Freitag的實(shí)驗(yàn)中,λ取值為0.7,更加注重所抽取文檔的相關(guān)性。MMR算法最重要的思想是他是一種驅(qū)動(dòng)且與搜索請(qǐng)求有關(guān)的算法[1]。開(kāi)創(chuàng)了查詢相關(guān)的算類[12]TF-IDF∑??∈???????? SCORE(????)=????????+????????+????????? LexRank[13]的主要思想是,將文章抽象成無(wú)向圖模型GVE},首先,將文章中的p(u)=??+(1???) ??∈??????[??]這些屬性在判定該水果是否為蘋果的概率分布上獨(dú)立的。樸素分類器依靠精確的中,樸素模型參數(shù)估計(jì)使用最大似然估計(jì)方法。??=argmax??(??=????)∏????=1??(????=??(??)|??= 支持向量機(jī)[16](英語(yǔ):SupportVectorMachine,常簡(jiǎn)稱為SVM)是一種監(jiān)督式學(xué)習(xí)支持向量機(jī)屬于一般化線性分類器,也可以被認(rèn)為是提規(guī)范化(Tikhonov

‖??‖2+??∑??,??,??

s. ????(??????+??)≥1? 輸出:決策樹(shù)為該節(jié)點(diǎn)的類,返回T。按照信息增益比計(jì)算方法,計(jì)算信息增益比的最大特征否則,對(duì)????的每一個(gè)可能值????,依照????????D分割為若干2.1模型,其特點(diǎn)是假設(shè)輸出隨量構(gòu)成隨機(jī)場(chǎng)。在標(biāo)注問(wèn)題時(shí),此條件隨機(jī)P(??|??) 1 ???? ,??,??,??)+ ????(??,??, ??,???? ??,???? ROUGE[14]是Lin,Chin-Yew文本自動(dòng)評(píng)價(jià)系統(tǒng),其中借鑒了BLEU評(píng)價(jià)機(jī)器翻譯的方法。ROUGE的評(píng)價(jià)標(biāo)準(zhǔn)主要為一下幾種。ROUGE-N,計(jì)算經(jīng)過(guò)詞干化后的兩句話的n-gram的重復(fù)度。ROUGE-L,計(jì)算兩個(gè)文檔中的最長(zhǎng)公共子序列。我們通過(guò)的挖掘,以及搜索引擎API的使用,基于啟發(fā)式的算法,進(jìn)行搜索結(jié)果摘要以及Infobox的對(duì)齊。3.1Infobox做對(duì)齊生成訓(xùn)練數(shù)據(jù)。之后將訓(xùn)練數(shù)據(jù)放入CRF模型進(jìn)行監(jiān)督學(xué)習(xí),并將該模CRF模型是一個(gè)監(jiān)督學(xué)習(xí)的模型,需要大量的訓(xùn)練數(shù)據(jù),而人手3.2們認(rèn)為的Infobox中已經(jīng)給我們提供了該值,于是我們只需要進(jìn)行Infobox值與搜ALGORITHMWikiSnippetAlignmentFOReachWikiinSnippets=FOReachsnippetinSnippetsALGORITHMWikiSnippetAlignmentFOReachWikiinSnippets=FOReachsnippetinSnippets模型。其中CRF++令行使用方法如下,有四個(gè)主要的參數(shù)可以調(diào)整:-aCRF-L2orCRF-規(guī)范化算法選擇。CRF-L2。一般來(lái)L2算法效果L1算法稍微好一點(diǎn),雖然L1算法中非零特征的數(shù)值要比L2中大幅度的小。-cCRFhyper-parameter。c的數(shù)值越大,CRF擬合訓(xùn)練數(shù)據(jù)的程度越-fcut-offthreshold。CRF++NUM次出現(xiàn)的特-pCPU,那么那么可以通過(guò)多線程提升訓(xùn)練速度。NUMCRF如上文所說(shuō),CRFCRF模型用到Infobox的信息抽取上,主要寫出如何構(gòu)建無(wú)向圖模型。我們給定序列:IverywasborninMcDuffie輸入序列以及攜帶的特征作為參數(shù)輸入CRF++的輸入文件之中IverywasborninMcDuffieCountry.NNPVBDVBNINNNPNNPOOOOLOCATIONCRF++提供圖模板文件,U[-1,0]即代表圖中的節(jié)點(diǎn)????的標(biāo)注結(jié)果????與?????10個(gè)特征詞語(yǔ)in有直接關(guān)系。在評(píng)價(jià)Infobox部分我們使用率,準(zhǔn)確率,以及F1的評(píng)價(jià)方法來(lái)進(jìn)行評(píng)測(cè)。召評(píng)價(jià)結(jié)果的質(zhì)量。其中率是是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的表3.1準(zhǔn)確率率定模型沒(méi)有標(biāo)注為需要的信息Precision Recall F1=2×

表3.2Infobox結(jié)本本數(shù)率F期詞一般是on或者in,前面的兩個(gè)單詞會(huì)有Born,并且代表出生日期的詞語(yǔ)在命名實(shí)體標(biāo)注的時(shí)候會(huì)被標(biāo)注為Date。本章探索了利用信息抽取的方法為實(shí)體生成對(duì)應(yīng)的屬性-值對(duì)。利用成CRF模以很好地用到成系統(tǒng)中。 生4.1自動(dòng)生成系統(tǒng)流在搜索引擎進(jìn)行查詢,并進(jìn)行html構(gòu)建篩文章的分選取適當(dāng)句子利算調(diào)利用SVM回歸模型進(jìn)行句子調(diào)圖4.1生成流我們首先使用Bing的API,調(diào)用相關(guān)接口,將實(shí)體名+introdution等查詢作為查詢請(qǐng)求,拿到Bing返回的URLs,再分別進(jìn)入各個(gè)網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)。在網(wǎng)頁(yè)源代碼的中,由于我們的都是靜態(tài)網(wǎng)頁(yè),所以只是使用了HttpRequest方法,拿到網(wǎng)HtmlHTMLHTMLJS代碼部分刪除掉,然后再用正則表達(dá)式找出需要提取的部分,可以說(shuō)使用正HTML很復(fù)雜的情況下。本文中使用了公開(kāi)的C#解析類庫(kù)HtmlAgilityPack。HtmlAgilityPackXPathHTML的類庫(kù),XPath使用路徑表達(dá)式來(lái)XML(path)(steps)來(lái)選取4.2.再詞性提取的步驟中,我們使用StanfordNLPCore作為詞性標(biāo)注的工具。在分類器文本頻度 Frequency,DF時(shí),那些低于最小閾值或者高于最高閾值的詞語(yǔ)都被去掉。DF卡方統(tǒng)計(jì)法(CHI,Simi,2000(4.1)其中,AtBt現(xiàn)的文檔數(shù);Et沒(méi)有出現(xiàn)的文檔數(shù);D是兩者均沒(méi)有出現(xiàn)的文檔數(shù)。N是交互信息(Mutualinformation,Pedersen,1997。它可以定義為:A,B,E,D,N的定義CHI統(tǒng)計(jì)法中定義相信息增益(Informationgain,其中定義為類別出現(xiàn)的概率;定義為詞語(yǔ)出現(xiàn)的概率;定義為詞語(yǔ)所有名實(shí)體以命名實(shí)體的各個(gè)類別作為標(biāo)記,例如下面的句子會(huì)被轉(zhuǎn)換為:MichealJordanisafamousplayerinlastdecade.[Target_]isafamousplayerin[Date].練模型。模型表示如下:??=argmax??(??=????)????=1??(????=??(??)|??= 其中Y的代表分類結(jié)果集合,X代表特征集合。通過(guò)特征的先驗(yàn)概率計(jì)算所應(yīng)分的對(duì)向量空間模型(VSM:VectorSpaceModel)Salton等人2070年代提出,VSM概念簡(jiǎn)單,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且它以空M個(gè)無(wú)序特征項(xiàng)????,每個(gè)文檔????可以用特征項(xiàng)向量來(lái)表示(??1??,??2??…??????)在權(quán)重計(jì)Cosine01

基于質(zhì)心的文檔算(1)初始化,此時(shí)聚類的簇集合??為空集,句子集合??={??1??2取句子集合中的第一個(gè)句子??1單獨(dú)成為一個(gè)簇??1,此時(shí)??={??1,?????對(duì)于句子集合中的每個(gè)句子Si,計(jì)算其與每個(gè)簇????的相似度????????,如??????????????Threshold,則句子單獨(dú)成為一個(gè)簇????+1={????},??=??{????},否則句子歸到相似度最大的簇????????=????????∪圖4.3文檔流在聚類的過(guò)程中,每個(gè)文檔??????????,而對(duì)于每個(gè)聚類的簇Cj,計(jì)算其質(zhì)心的為,將????中的所有文檔????TFIDF向量表示并相加,得到新的向量???????,此時(shí)向量?的維度為n,將向量的各個(gè)維度從大到小排序,選取前k大的元素,其余元素0,得到k維向量?確定句子的分類,分?jǐn)?shù)越大屬于+1Bayes對(duì)+1與-1的概率都進(jìn)行了相應(yīng)的計(jì)算。我們可以依照將模型中取到+1和取到-1的概率進(jìn)行計(jì)算,在實(shí)現(xiàn)LexRankLexRank算法是一種基于圖模型的構(gòu)建算法,LexRank算法的思想為如果一個(gè)句用到了經(jīng)典的PageRank算法。值,則將兩個(gè)節(jié)點(diǎn)之間連一條邊,這樣就構(gòu)成了無(wú)向圖??=(??,??),圖中的每個(gè)節(jié)點(diǎn)????對(duì)應(yīng)著每個(gè)句子,而邊(????????)∈??ij例如,我們給出某個(gè)有12個(gè)句子的簇,其中相似度矩陣如圖4.4所示,則相應(yīng)的相似度無(wú)向圖為圖4.5所示。一個(gè)簡(jiǎn)單衡量圖點(diǎn)重要度的方法是通過(guò)節(jié)點(diǎn)的度來(lái)??(??)=

??∈??????(??)

1234567891234567894.44.5.??????????=??1??????????????????????????+ 句句子權(quán)重排是相似是相似度>閾值否作句輸滿足是與已輸出句子比丟圖4.6生成算行相應(yīng)的排序,獲得有序列表??={??1??2????},此時(shí)輸出文檔集合A為空集。將權(quán)重最大的句子??1進(jìn)行輸出,此時(shí)??=????1},??=??則??=??∪{????},否則丟棄。噪,之后運(yùn)行多文本模型算法。生成無(wú)序的句子集合??={??1,??2…????}。給定多文檔所選取的無(wú)序集合??={??1,??2…????},我們希望通過(guò)數(shù)學(xué)模型將句子調(diào)序,使句子通順可讀。于是我們選用SVMRegression算法來(lái)對(duì)句子進(jìn)行打分,每個(gè)句子????有對(duì)應(yīng)的分?jǐn)?shù)????????????,之后按照Score的得分對(duì)句子進(jìn)行排序,得到有序列表L。12

‖??‖2+?? +?? ???????(????,??)≤??+

??.??.{??(????,??)?????≤??+????1,????2≥0,??=1,…,

SVMRegression訓(xùn)練時(shí)候?qū)⒕渥釉谥械呐判蜃鳛閥,將句子按照向量空間模型轉(zhuǎn)化為向量??{??1,??2…????}SVMw,之后對(duì)于每個(gè)輸入的句子????,利用模型計(jì)算出分?jǐn)?shù)????????????=?????。再按照分?jǐn)?shù)將句子進(jìn)行排序。SVMLightSVMLight中的回歸模型,在回歸模型中我們選擇的核函數(shù)為RBF。序列句子之間存在著先后關(guān)系。而流暢程度將在4.7節(jié)中進(jìn)行具體的展示。Bornon1955,WilliamHenryIIIisanAmericanentrepreneur,businessmogul,investor,philanthropist,andwidelyknownasoneofthemostrichestandinfluentialpeopleintheworld.BillGatesfounded in1976whenheformedacontractwithMITTSMicroInstrumentationandemetrySystems(todevelopabasicoperatingsystemfortheirnew puters.Gates‘earlyexperienceswithcomputersincludeddebuggingeliminatingerrorsfrom)programsfortheComputerCenterCorporation’sPDP-10,heltocomputerizeelectricpowergridsfortheBonnevillePowerAdministration,andfoundingwithAllenafirmcalledTraf-O-Datawhilestillinhighschool.PaulAllenpickedupamagazineatHarvardSquarewhichread,``World‘sFirst puterKitToRivalCommercialModels’‘toBillGatesandPaulAllenthiswasthemomenttheyhadbeenwaitingfor,thedawnof alcomputerhadbegun.Inadditiontohisloveofcomputersandsoftware,GatesfoundedCorbis,whichisdevelooneoftheworld'slargestresourcesofvisualinformation-acomprehensivedigitalarchiveofartandphotographyfrompublicandprivatecollectionsaroundtheglobe.HeandwifeMelindaestablishedtheBill&MelindaGatesFoundation,whichfocusesonheltoimprovehealthcareandeducationforchildrenaroundtheworld.BillGateswithmultipleproductsunleashedwithhiscompany ,allowedthetechnologyfieldtoexpandand emorecompetitive,alwayssettingthestakesmuchhigher,andpresentedafieldwithendlesssurprises.Shealsoservedonseveralcorporateboards,includingthoseoftheFirstInterstateBankinSeattlefoundedbyhergrandfather),theUnitedWayandInternationalBusinessMachinesIBM).In2000,heandhiswifefoundedtheBillandMelindaGatesFoundation,andhavegivenover$28billiontocharitiesfocusedonscientificresearchandinternationaldevelopment.在文本分類評(píng)測(cè)模塊中,300個(gè)實(shí)體當(dāng)做訓(xùn)練語(yǔ)料,其中300個(gè)實(shí)體含有2000句話,57667個(gè)詞語(yǔ)。作為負(fù)例的有2608句,57669個(gè)詞語(yǔ)。將詞語(yǔ)利用特征1802個(gè)一元詞語(yǔ),5231個(gè)二元詞語(yǔ)。44個(gè)一元詞性,533個(gè)二元詞性。以此構(gòu)成訓(xùn)練集。4.1在的評(píng)分系統(tǒng)中,我們使用兩種評(píng)價(jià)來(lái)對(duì)我們的進(jìn)行評(píng)價(jià)RougeRouge為L(zhǎng)in,Chin-Yew文本自動(dòng)評(píng)價(jià)系統(tǒng),利用率來(lái)評(píng)價(jià)一個(gè)文檔的好壞,在多屆DUC評(píng)價(jià)自動(dòng)文檔中進(jìn)行了使用,為世界公認(rèn)的評(píng)價(jià)自動(dòng)系統(tǒng)的辦法。wiki百科原始文檔作為標(biāo)準(zhǔn),將自動(dòng)生成的當(dāng)做要評(píng)測(cè)的文檔進(jìn)行輸入,對(duì)進(jìn)行Rouge-1,Rouge-2,Rouge-L評(píng)測(cè)。我們需要使用人工評(píng)價(jià)的方式來(lái)衡量的可讀性。 表4.2評(píng)2本章給出了實(shí)體生成的具體解決方案。利用了已有的文本分類,多文本, 正文部分生標(biāo)題選標(biāo)題選爬文5.1 和抽取,非負(fù)矩陣分解,圖矩陣分解,以及我們所模型。Object=‖?????????‖2+??‖??? ????n為詞語(yǔ)數(shù)目,k為話題數(shù)目。V代表文檔-話題矩陣,為????維矩陣,其中m為文檔數(shù)目,k為話題數(shù)目。??為模型線性組合的權(quán)重。????=?2????+ ????=?2??????+2?????????4??????+ U,V,α=1,β=0.1,θ=0.01,ε=For??′=[?????????Object(??)?????????????(??)>θ? (?????′′????=???????′=[?????]+UntilObject(??)?????????????(??)≤θ? (?????′′????=??′=[????? ]+UntilObject(??)?????????????(??)>θ? (?????′′IfIfflagequals=[??? ????????????(??)?????????????(??)>???′[(?????′????=???????′=[?????]+Until????????????(??)?????????????(??)≤???′[(?????′????=??′=[????? ]+Until????????????(??)?????????????(??)>???′[(?????′Ifflagequals?????1=[???????????5.2之后U矩陣每一列中最大的元素所代表的詞語(yǔ)即為這個(gè)的。V KernelKernelKmeansKmeans的變形[22],首先將點(diǎn)集合??????????},映射到另一個(gè)給定一個(gè)點(diǎn)集合給定一個(gè)點(diǎn)集合??????????}k??({????∑ ?(??=∑∑‖?(??)???‖,??????????????=??23且計(jì)算矩陣的特征值和特征向量,然后選擇合適的特征向量聚類不同的數(shù)據(jù)點(diǎn)。譜聚類算法最初用于計(jì)算機(jī)視覺(jué)、VLSI設(shè)計(jì)等領(lǐng)域,最近才開(kāi)始用于機(jī)器學(xué)習(xí)中,并迅給定一個(gè)點(diǎn)集合??={給定一個(gè)點(diǎn)集合??={????????},我們希望將這些點(diǎn)聚為k將這些點(diǎn)按照一定的規(guī)則組成相似度矩陣DD的第(i,i)A矩陣第i??=4.Lk大的特征向量????????????,再將這k個(gè)特征向量按照列的順序構(gòu)成新的矩陣??=[????,????,…,????]將矩陣X的每行進(jìn)行標(biāo)準(zhǔn)化,例如??=??/(∑?? ??將矩陣Y的每一行當(dāng)做一個(gè)點(diǎn),之后通過(guò)KMeans來(lái)確定點(diǎn)所屬的類7.將點(diǎn)集合中的每個(gè)元素????歸類到j(luò)類,如果Y的第i行被歸到第j5.4word-doc空間[26]。給定詞語(yǔ)-文檔mnXX分解成,????維度的詞語(yǔ)-矩陣U,以及??×??維度的文檔-矩陣V。??=1‖??? Cai等人將圖模型的信息加入到了非負(fù)矩陣分解之中[21],試圖利用近鄰的信息增??=1‖?????????‖2+ 上述公式中,X矩陣,UVNMF之中。Tr代表著矩陣L矩陣被定義為,??????W為各個(gè)文檔之間的相似度矩陣,D為對(duì)角陣,對(duì)角線上元素為W對(duì)應(yīng)行之和。題空間,形成??×??維度的矩陣V[24]。??=‖??? TF-IDF(termfrequency–inverse 搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或。除了TF-IDF以外,

IDF

=

∈STextRank定義窗口,如果一個(gè)詞樣就構(gòu)成了無(wú)向圖G=(S,E),圖中的每個(gè)節(jié)點(diǎn)s∈S對(duì)應(yīng)著每個(gè)單詞,而邊(sisj)∈代表著單詞i與句j單詞。其中每個(gè)節(jié)點(diǎn)的度d越大代表著與此單詞有聯(lián)系的單詞越5.5在建立前綴樹(shù)和后綴樹(shù)時(shí)我們遵循以下原則,如果一個(gè)搜索請(qǐng)求 ??????(??1,??2)=??????????????????(??1,??2)+??????????????????????(??1, 其中????????????????(??1,??2)被定義為兩個(gè)搜索請(qǐng)求在 上面的相似度,????????????????????(??1,??2)URL爬蟲(chóng)策略與之前的爬蟲(chóng)策略一直,只是爬取例如<p>之間的內(nèi)容給定輸入語(yǔ)料集合給定輸入語(yǔ)料集合??={????????,每個(gè)語(yǔ)料由有序的句子序列????{????????????}組成,輸出序列為選擇最長(zhǎng)的語(yǔ)料????作為藍(lán)本,并將????????,以及????所有句子放到輸出集合O中。S,取????中的所有句子,計(jì)算??????O列的第t個(gè)位置。25.62~20個(gè)話題,之后我們希望我們的算法可以從問(wèn)題中挖掘出對(duì)應(yīng)的主題,這樣我們就可以將此算法應(yīng)用到其他問(wèn)答社區(qū),例如YahooAnswer。我們首先從搜索日志中拿出點(diǎn)擊次數(shù)最高的20000個(gè)查詢請(qǐng)求,例如,等,之后我們通過(guò)Lucene從quora數(shù)據(jù)集中檢索出對(duì)應(yīng)的問(wèn)題集合。之后通過(guò)主題將問(wèn)題歸類,并隨機(jī)抽取2~20個(gè),抽取時(shí)不允許兩個(gè)間重復(fù)的問(wèn)題超過(guò)三AC=

Map函數(shù)通過(guò)二分圖最大匹配算法確定集合a與集合l的最優(yōu)對(duì)應(yīng)關(guān)系的包含,即認(rèn)為抽取正確。表5.1聚類及評(píng)KernelCQA中大量的語(yǔ)義屏障,我們引入Bayes和LDA兩種模型來(lái)提高聚類的精度。Bayes為我們通過(guò)YahooAnswer中的分類信息和YahooAnswer中對(duì)應(yīng)的問(wèn)題文本訓(xùn)練模型LDA聚類果的提高比LDA要大一些。相似度矩陣中的D(i,j),D(j,i)分別置為1。‖?????????‖2+??‖??? 參數(shù)αD矩陣的權(quán)重,如果參數(shù)越大,則聚類結(jié)果所受影響越受矩陣聚類效1 Search:只依靠實(shí)體名生成正文Search-wiki:依靠實(shí)體名+從挖掘出來(lái)的模板生成正文FullModel:依靠整個(gè)模型生成正文表5.25.6表BillComputer,MichaelBastetball,Wiki,BarackPolitics,News,5.7科,問(wèn)答社區(qū),以及搜索日志中查詢一個(gè)實(shí)體所涉及的。之后我們通過(guò)實(shí)體名+主通過(guò)進(jìn)行搜索所獲得的語(yǔ)料都更加全面。證明了我們系統(tǒng)的有效性。結(jié)標(biāo)注,文本分類,多文檔,文本調(diào)序等。在Infobox生成部分了解并使用了CRF模型,CRF是自然語(yǔ)言處理領(lǐng)域一個(gè)很有名CRF模型應(yīng)用到信息抽取問(wèn)展示了“”自動(dòng)生成的文本。并且使用了現(xiàn)今公認(rèn)的Rouge評(píng)價(jià)系統(tǒng),以應(yīng)用簡(jiǎn)單的SVM回歸進(jìn)行文本調(diào)序,雖然有些許效果,然而從人工的評(píng)測(cè)Infobox生成模塊,我們可以看到在職業(yè)的抽取上準(zhǔn)確率仍然不高,所以致其次,我需要感謝微軟亞洲的老師和武威老師。微軟亞洲是計(jì)算參考文Freitag,Dayne."Towardgeneral-purposelearningforinformationextraction."Proceedingsofthe17thinternationalconferenceonComputationallinguistics-Volume1.AssociationforComputationalLinguistics,1998.Knoblock,CraigA.,etal."Accurayandreliablyextractingdatafromtheweb:Amachinelearningapproach."Inligentexplorationoftheweb.Physica-VerlagHD,2003.275-Kushmerick,Nicholas.Wrapperinductionforinformationextraction.Diss.UniversityofWashington,1997.Banko,Michele,etal."Openinformationextractionfortheweb."IJCAI.Vol.7.Wu,Fei,andDanielS.Weld."OpeninformationextractionusingWikipedia."Proceedingsofthe48thAnnualMeetingoftheAssociationforComputationalLinguistics.AssociationforComputationalLinguistics,2010.Li,Peng,JingJiang,andYinglinWang."Generatingtemplatesofentitysummarieswithanentity-aspectmodelandpatternmining."Proceedingsofthe48thannualmeetingoftheAssociationforComputationalLinguistics.AssociationforComputationalLinguistics,2010.Zhou,Liang,MirunaTicrea,andEduardH.Hovy."Multi- Summarization."EMNLP.2004.Biadsy,Fadi,etal."AnUnsupervisedApproachtoBiographyProductionUsingWikipedia."ACL.2008.Sauper,Christina,andReginaBarzilay."Automaticallygeneratingwikipediaarticles:Astructure-awareapproach."ProceedingsoftheJointConferenceofthe47thAnnualMeetingoftheACLandthe4thInternationalJointConferenceonNaturalLanguageProcessingoftheAFNLP:Volume1-Volume1.AssociationforComputationalLinguistics,2009.Yao,Conglei,etal."Autopedia:automatic-independentWikipediaarticlegeneration."Proceedingsofthe20thinternationalconferencecompaniononWorldwideweb.ACM,2011.Carbonell,J.andGoldstein,J.(1998).TheuseofMMR,diversity-basedrerankingforreorderingsandproducingsummaries.InProceedingsofSIGIR'98,pages335{336,NewYork,NY,USA.[12,14,15]Radev,D.R.,Jing,H.,Stys,M.,andTam,D.(2004).Centroid-basedsummarizationofmultiple s.InformationProcessingandManagement40(2004),40:919{938.[16,17]Erkan,Günes,andDragomirR.Radev."LexRank:Graph-basedlexicalcentralityassalienceintextsummarization."J.Artif.In l.Res.(JAIR)22.1(2004):457-479.Lin,Chin-Yew,andEduardHovy."Automaticevaluationofsummariesusingn-gramco-occurrencestatistics."Proceedingsofthe2003ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguisticsonHumanLanguageTechnology-Volume1.AssociationforComputationalLinguistics,2003.Lafferty,John,AndrewMcCallum,andFernandoCNPereira."Conditionalrandomfields:Probabilisticmodelsforsegmentingandlabelingsequencedata."(2001).Cortes,Corinna,andVladimirVapnik."Support-vectornetworks."Machinelearning20.3(1995):273-297.Ng,AndrewY.,andMichaelI.Jordan."

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論