




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Genre Identification體裁識別目錄思想數據集方法結果研究方向體裁識別的論文大致根據如下幾個方面進行研究。1. 通過尋找有效的特征,提高識別準確率。2. 使用更先進的機器學習算法或者對以往的機器學習算法進行改進。3. 近年來開始對除了文本以外的視圖進行分析。研究方向特征工程一、思想Kessler最早給出體裁(Genre)的定義Genre:體裁指的是任何可以被廣泛識別的文本種類,他們有共同的交流目的或者其他的功能特性,他們所提供的功能和形式暗示或者通用性有聯系,并且這些類別是可以擴展的。1. Kessler B, Numberg G, Schtze H. Automatic de
2、tection of text genre.研究方向特征工程二、數據集本文對3種體裁進行分類,并且每種體裁分成若干個小類別。類別Brow新聞類的,按照不同等級(popular, Middle)區分新聞的權威程度。Narrative敘事類的,分為敘事文和非敘事文。Genre分不同體裁,科技類、小說類、邏輯類、社論等。使用數據集Brown Corpus,共499篇文章,402 用于訓練/ 97 用于測試。1. Kessler B, Numberg G, Schtze H. Automatic detection of text genre.研究方向特征工程三、方法提取的特征結構特征:被動句、名詞化
3、、主體化句子、句法范疇的統計頻率。文本特征:稱呼的形式、拉丁文前綴、表達日期的單詞。字符特征:標點符號、停止詞、分隔符等。衍生特征:每個句子中平均單詞個數、每個單詞中平均字母個數、每個類型中平均單詞個數生成。本文對提出的特征使用如下公式進行組合。其中W為單詞個數,S為句子個數,C為字符個數。這些組合共有3000多種,然后使用后向分步算法進行特征選擇,選出最具有判別性的55種特征使用分類器有如下幾種:Logistic Regression、2-layer perceptron 、3-layer perceptron 。1. Kessler B, Numberg G, Schtze H. Auto
4、matic detection of text genre.研究方向特征工程四、結果*表示高于baseline 5%的表現,baseline是按照各個類別的比重進行隨機選擇。All表示使用所有的特征,Sel.表示使用最具有判別性的55個特征。1. Kessler B, Numberg G, Schtze H. Automatic detection of text genre.研究方向特征工程一、思想Finn認為體裁分類是從話題分類這個領域轉移過來的。同時體裁又是和話題相互正交的,同一話題的文章可能是不同體裁。在體材分類中,他提出這樣一個假設域轉移,即是否在一個話題上訓練的體裁分類器在其他話題
5、上也能成功得適用。例如,在電影領域中能區分一條評論是消極還是積極的分類器,在餐飲領域也能區分。2. Finn A, Kushmerick N. Learning to classify documents according to genre.研究方向特征工程二、數據集本文對體裁分類進行如下兩種。1. 文章中作者表達的關鍵是主管的還是客觀的。這一方面的文章由足球、經濟、政治構成。事實:大選將在18日進行。觀點:聽到這個消息我的心情是近乎崩潰的。2. 一個評論是消極的還是積極的。這一方面的文章由電影和餐館構成。積極:這電影的構思真是精妙絕倫。消極:電影的冗余鏡頭太多。2. Finn A, Kus
6、hmerick N. Learning to classify documents according to genre.研究方向特征工程三、方法提取的特征詞袋:找出最高詞頻的單詞,并且過濾掉經常同時出現的單詞,因為這些單詞并不能用于區分話題。詞性標注(POS tagging):統計不同詞性出現的個數。文本統計:從文檔級別,統計句子長度、單詞個數。從單詞級別,統計doesnt等單詞出現的個數。從字符級別,統計標點符號出現的次數。本文使用的學習算法是C4.5決策樹,決策樹是結點是特征的多叉樹,從根節點開始,每次選擇信息增益最大的特征作為結點。三個特征集合是三個不同的視圖,并且訓練單獨的分類器。最
7、終進行多視圖嵌入,嵌入的方法就是每個單獨的分類器對樣本的分類進行投票,得票最高的類別則為最終的類別。評估標準是準確率和域轉移率。域轉移率的公式如下。2. Finn A, Kushmerick N. Learning to classify documents according to genre.研究方向特征工程四、結果多視圖嵌入在主觀分類中表現較好,詞袋在評價分類中表現較好。2. Finn A, Kushmerick N. Learning to classify documents according to genre.研究方向特征工程一、思想由于NLP的發展,詞性標注這個特征被廣泛的使用
8、。本文主要利用詞性標注這個特征來進行特征工程。3. Feldman S, Marin M A, Ostendorf M, et al. Part-of-speech histograms for genre classification of text研究方向特征工程二、數據集本文使用的數據集分為6種體裁。1. 廣播新聞:671篇。2. 廣播談話:698篇。3. 會議:493篇。4. 新聞線:471篇。5. 電話總線:890篇。6. 網絡博客:543篇。3. Feldman S, Marin M A, Ostendorf M, et al. Part-of-speech histograms
9、for genre classification of text研究方向特征工程三、方法本文提出一種詞性標注柱狀圖的特征提取方法,步驟如下。1. 為長度為l的詞序列打上詞性標注。2. 用w長度的窗口在l上滑動,獲得1, . l-w+1個窗。3. 統計每個窗中的詞性然后獲得二維向量mean, deviation。4. 正則化這些向量。5. 使用PCA降維方法將這些向量降維并作為最終的特征向量。本文使用的分類器為二次判別分類器和樸素貝葉斯分類器,二次判別分類器是一個二次曲面。使用的降維方法是主成分分析(PCA)。評估方法使用準確率。3. Feldman S, Marin M A, Ostendor
10、f M, et al. Part-of-speech histograms for genre classification of text研究方向特征工程四、結果二次分類器準確率較高。3. Feldman S, Marin M A, Ostendorf M, et al. Part-of-speech histograms for genre classification of text研究方向機器學習算法一、思想Kessler最早給出體裁(Genre)的定義。提出一種改進的LDA算法,用于解決每個類別數據分布非高斯分布的問題。對每一個樣本點,希望這個樣本點到與他相同標簽的最近鄰的k1個鄰居
11、的距離盡可能的小,并且到與他不同標簽的最近鄰的k2個鄰居的距離盡可能的大。而不是使得不同類別,類內方差最小,類間方差最大。4. Tang P, Zhao M, Chow T W S. Text style analysis using trace ratio criterion patch alignment embedding研究方向機器學習算法二、數據集本文使用的數據集均為新聞,但分為3種類型。1. 來自不同的新聞編輯部。2. 來自地道的英文新聞和非英語為母語的英文新聞。3. 來自不同時代的英文新聞(1980s、1990s、2000s)。4. Tang P, Zhao M, Chow T
12、W S. Text style analysis using trace ratio criterion patch alignment embedding研究方向機器學習算法三、方法本文使用的特征集合分為字符、文本和結構三種等級。4. Tang P, Zhao M, Chow T W S. Text style analysis using trace ratio criterion patch alignment embedding研究方向機器學習算法三、方法在局部構造步驟中,每一個塊由一個樣本和其最近鄰的樣本根據數據集的特征和方法目標構成。在全局校準步驟中,所有局部的優化集成在一起,為所
13、有獨立的塊形成一致的全局坐標。對于給定的樣本點,設其最近鄰的同類別的樣本集合(patch)為 ,其最近鄰的不同類別樣本集合為 。定義的低維表示為 。樣本i是樣本j的同類別近鄰則 為1,否則為0。這樣,獲得我們的目標優化函數。將這個優化函數轉化成跡比例問題,使用iITR算法。該算法將問題轉化成線性分式規劃問題,可以用Dinkelbachs算法解決。4. Tang P, Zhao M, Chow T W S. Text style analysis using trace ratio criterion patch alignment embedding研究方向機器學習算法四、結果使用PCA、LD
14、A、TR-LDA和TR-PAE進行對比實驗。使用準確率和互信息進行結果評估。AC即聚類的準確率,表示聚類后標簽正確的樣本所占總樣本的比例。NMI即正則化互信息,表示聚類后集合和正確標簽集合的相關性程度。4. Tang P, Zhao M, Chow T W S. Text style analysis using trace ratio criterion patch alignment embedding研究方向文本以外視圖一、思想2006年以后,文本體裁分類大多基于web文檔進行研究,web文檔不僅具有文本信息(text),而且具有區塊標簽信息(tag)。所有先前的研究所收集的特征都是來自
15、于文本信息和區塊標簽信息。但是對于web文檔,還可以利用其獨有的連接信息(link)。不僅使用文本和結構信息,而且使用來自相關的鄰居網頁的信息。利用基于圖的算法,提出GenreSim來描述文檔之間的體裁相似度。然后根據文檔自身和最近鄰文檔的特征作為特征集合。5. Zhu J, Xie Q, Yu S I, et al. Exploiting link structure for web page genre identification研究方向文本以外視圖二、數據集本文使用2種標準數據集KI-04和7-Web,以及一種4種體裁的數據集IV-12。KI-04:分為幫助文檔、購物、討論等類別。7-
16、Web:博客、電商、問答、搜索頁面、主頁等類別。IV-12:電影主頁、攝影網站、視頻分享網站、音樂下載網站。每個類別均500個網頁。5. Zhu J, Xie Q, Yu S I, et al. Exploiting link structure for web page genre identification研究方向文本以外視圖三、方法On特征,即來自于本頁面的特征包含兩個方面。文本特征來自于URL、標題、關鍵詞(用TF-IDF方法)。結構特征來自于圖片、鏈接、email、div區塊等的個數。On-Link特征,即來自最近鄰的鏈接頁面的On特征,包括跳數為1和2的鏈出或者鏈入的頁面,這些頁
17、面中結構相似度最高的頁面即為最近鄰頁面。計算頁面相似度1. Score(p)表示一個頁面p對于其鏈入和鏈出的鄰居的重要性程度。2. B(p)表示一個頁面的鏈出結點集合, F(p)表示一個頁面的鏈入結點集合。3. Path(u,v)表示從u到v的所有路徑經過的節點集合的集合。Path(A,D)=(A,B,D), (A,C,D), (A,D)5. Zhu J, Xie Q, Yu S I, et al. Exploiting link structure for web page genre identification研究方向文本以外視圖三、方法將從頁面A到頁面D的”連接”看做是推薦,那么,從A
18、到D的推薦可能的路徑就有3條,即Path(A,D),而A推薦給D的得分如下。Score(A,D)=0.5*0.9*(1+0.5+0.5)=0.9。Score(A,B)=Score(A,C)=0.5*0.9=0.45。使用Jarccard相關系數來表示兩個節點的相關性。如果u, v被所有頁面推薦的得分都很相似,那么說明兩個頁面也很相似。例如,很多NBA特免推薦LBJ和KB的得分都很相似,那么有關LBJ和KB的頁面很可能有相同的體裁。計算公式如下。Sim(B,C)=1。Sim(B,D)=(0.45+0.15)/(0.9+0.3)=0.5。Sim(C,D)=(0.45+0.1)/(0.9+0.2)=0.5。說明B,C可能是同類型頁面
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國黑龍江飼料項目創業計劃書
- 中國蠟燭草項目創業計劃書
- 中國計算機系統維護項目創業計劃書
- 2025二手壓縮機采購合同
- 中國南洋杉項目創業計劃書
- 中國干鱈魚項目創業計劃書
- 中國動畫制作軟件項目創業計劃書
- 中國兒科呼吸機項目創業計劃書
- 2025年安徽省銅陵市銅官山區人事局事業單位工作人員公開招聘考前自測高頻考點模擬試題及答案詳解1套
- 智能化網絡安全防護體系-洞察闡釋
- 建筑工程公司安全生產管理實施細則(2篇)
- 2024年考研英語一閱讀理解80篇試題及答案
- DB65-T 4824-2024 干旱區蒸散發量計算規范
- 地域文化(專)-終結性考試-國開(SC)-參考資料
- 2025屆高考生物備考說課稿:生態系統的物質循環、信息傳遞和穩定性
- 我是為了您的孩子 您是為了我的學生-期中測試家長會 課件
- 2024年全縣金融工作會議講話材料例文(5篇)
- 委托監護協議書格式
- 2024年保密培訓課件:員工保密知識要點
- 車站值班員(高級)技能鑒定理論題庫(濃縮400題)
- 《向量加法運算及其幾何意義》參考課件1
評論
0/150
提交評論