




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、計劃類別 項目編號 項目技術報告課題名稱 項目主持人 承擔單位 題目:融合CNN和LDA的短文本分類研究應用卷積神經網絡分類文本是自然語言處理領域的研究熱點,針對神經網絡輸入矩陣只提取詞粒度層面的詞向量矩陣,忽略了文本粒度層面整體語義特征的表達,導致文本特征表示不充分,影響分類準確度的問題。本文提出一種結合word2vec和LDA主題模型的文本表示矩陣,結合詞義特征和語義特征,輸入卷積神經網絡進行文本分類,以豐富池化層特征,達到精確分類的效果。對本文提出模型進行文本分類實驗,結果表明,本文算法相比傳統特征輸入的卷積神經網絡文本分類,在F度量值上取得一定程度的提升。關鍵詞:卷積神經網絡;主題模型
2、;LDA;word2vec1 引言(Introduction)在網絡普及信息爆炸的現代社會,主流信息平臺累計的信息量都以指數形式增長;其中占據絕大比重的是短文本數據。研究應用新的文本處理技術,對短文本數據進行分析挖掘有著廣闊的前景和意義。短文本分類是自然語言處理領域的基礎工作,廣泛應用于信息檢索、網絡知識挖掘和情感分析等領域。目前針對分類算法的研究方興未艾,現有方法中,基于CNN卷積神經網絡模型的分類算法應用廣泛,該算法或以one-hot向量,或以word2vec詞向量,為相對獨立的文本特征輸入,通過濾波矩陣將文本特征轉化為分類特征進行分類1。上述方法著重短文本詞義特征進行分類,詞義和語義不屬
3、一個概念,詞義為單個詞語的含義,詞義構成語義,但不代表語義,語義則是由多個詞語按一定順序關聯起來,表達一個整體意思,只依據詞義的分類將導致特征表示不充分的問題。因此文本分類應以豐富的特征表示為前提,輸入特征矩陣包含詞義特征和語義特征,將有助于權衡短文本分類準確度。2 文本分類技術(Text classification)短文本的分類研究主要解決兩類問題,短文本特征表示是第一類問題,應用于短文本特征的分類模型是第二類問題。2.1 文本表示文本表示主要基于兩大類方法,從文本挖掘深度的角度,第一類基于文本表層信息提取,One-Hot獨熱編碼,使用N維詞典向量來對文本進行表示,向量存在0/1兩種數值,
4、取決于文本中詞語出現與否,出現為1,不出現為0,是目前最簡單的文本特征表示方法2。第二類基于深層信息提取,Mathew J等3利用LDA主題模型訓練短文本的潛在語義空間表示-主題分布,構建基于主題分布的特征向量表示。Bojanowski P等4提出word2vec將詞匯看作是原子對象,注重詞匯的上下文,通過兩層神經網絡挖掘詞語共現度對詞義進行向量表示,克服了短文本缺乏上下文聯系的問題。唐明等5利用TF-IDF算法計算每篇文檔中詞的權重,并結合word2vec詞向量生成文檔向量,提高了單個詞對整篇文檔的影響力。2.2 分類模型文本分類模型的研究主要有機器學習和深度學習的方法,Duan Y等6提出
5、一個利用樸素貝葉斯學習支持向量機的文本分類方法。對文本預處理結果進行特征降維,然后訓練支持向量機SVM模型用于文本分類。張志飛等7利用LDA模型生成主題,一方面區分相同詞的上下文,降低權重;另一方面關聯不同詞以減少稀疏性,增加權重。采用KNN方法對自動抓取的標題短文本數據進行分類。深度學習分類模型中,CNN卷積神經網絡模型對文本分類任務適應性好,Johnson,R等8直接對one-hot向量進行卷積運算訓練CNN模型,不需要預訓練得到word2vec或GloVe等詞向量表征,以減少網絡需要學習的參數個數。Nguyen,T.H等9假設了所有文本元素的位置已知,每個輸入樣本只包含一種關系,探索了C
6、NN在關系挖掘和關系分類任務中的應用。上述文本表層信息提取的方法應用成熟,但易導致數據高維、特征表征性差的問題,而提取文本語義特征的LDA模型,忽略了詞義特征的相互關系,訓練詞向量的word2vec,則忽略了整體語義的表達。若分別以上述表示特征為CNN輸入矩陣,將導致低準確率的分類效果。3 改進的短文本分類算法(Improved algorithm)本文提出一種改進短文本特征表示的方法,結合word2vec詞向量與LDA主題向量,從詞粒度和文本粒度兩個層面表示短文本特征矩陣,特征矩陣輸入卷積神經網絡,通過卷積神經網絡加強詞與詞、文本與文本之間的聯系,進行高準確的文本分類。word2vec依據滑
7、動窗口內的詞語共現信息,將特征提取細化到詞粒度,建模每個詞語獨立的詞向量,語義向量完全由詞向量簡單疊加組合,忽略了詞語間相互關聯的整體語義表達,弱化了詞項間差異性;LDA通過概率模型構建文本的主題分布,主題分布體現文本的整體語義信息,若結合主題語義特征,將豐富卷積神經網絡池化層特征,為分類器提供準確的分類特征。分類效果準確率不高。3.1 算法流程CNN的文本分類模型,主要分為三層處理,包括文本表示、神經網絡和分類評估,以及五個操作,文本預處理層、文本特征表示、卷積網絡層、最大化層、Soft分類層、分類結果、分類評測,其算法流程如圖1所示。3.2 文本預處理分本預處理是對文本數據的基礎操作,能清
8、洗原始數據中不規則的數據成分,便于文本后續進行特征提取和表示,通常包括以下處理:(1)對原始文本數據進行中文分詞處理,本文采用基于Python的結巴分詞工具,可以根據句法和語法高效切分詞語,保證詞語完整性和原子性。(2)分詞結果包含原句中標點符號,符號本身不具有任何詞項含義,因此利用正則式去除分詞結果中的標點符號,如:“,。”等。(3)停用詞往往造成數據冗余,導致分類模型偏差,采用Stopword.txt停用詞表去除分詞結果中停用詞。3.3 文本特征表示文本特征表示是對短文本數據的向量化建模,以體現文本中表征性強、計算價值高的文本特征。Word2Vec從詞粒度層面,挖掘詞義對文本進行精細語義表
9、達,LDA從文本粒度層面,通過概率模型構建文本的主題分布,著重文本整體語義的表達。兩者通過向量拼接的方式,構建包含詞義和語義的特征矩陣,從兩個層面保證文本特征的完整性。3.3.1 訓練詞向量Word2vec能快速構建詞語的詞向量形式,詞向量的每一維的值代表一個具有一定的語義和語法上解釋的特征,其核心框架包括CBOW和Skip-gram兩種訓練模式,CBOW依據上下文決定當前詞出現的概率,但短文本上下文信息缺失,此模式不適用。Skip-gram采用跳躍組合的方式學習詞項規則,更能適應短文本特征稀疏的需要。其中,為語料庫中任意出現的詞項,即通過跳躍組合構建出現的概率。詞向量訓練時文本,輸出任意詞語
10、的N維向量表現形式。為語料庫中任意文本,為該文本詞項k的權重特征值。3.3.2 訓練主題向量LDA主題模型通過先驗概率的主題建模,分析文本隱含語義主題,語義主題體現文本隱含語義,是對文本深層特征的直接提取。利用LDA訓練短文本語料庫,輸出文本主題、主題詞語矩陣,兩個矩陣10。LDA模型初始化參數配比,見表1。其中,反應文本中隱含主題的先驗分布,反應隱含主題下詞的先驗分布,Niters Gibbs為模型迭代次數,K為主題維數,以上參數均為多次實驗經驗值配比。模型訓練結束輸出語料庫任意文本的主題分布矩陣。其中,為文本M對應的主題概率向量,M為語料庫大小,N為向量維度,數量與詞向量維度相同。3.3.
11、3 向量拼接改進的短文本表示方法,采用向量拼接的方式,將詞向量與主題向量疊加一起,形成新的輸入矩陣,即包含詞義特征又包含整體語義特征。其中,為向量拼接操作,輸入矩陣W表示文本對應的詞向量,z表示文本對應的主題分布向量,以此作為CNN卷積層輸入數據,有助于分類準確性。3.4 卷積神經網絡CNN是一種優化的前饋神經網絡,核心在于輸入矩陣與不同卷積核之間的卷積運算,池化卷積結果作為分類運算的數據特征。因此卷積神經網絡主要由卷積層、池化層、分類層組成,結構如圖2所示。3.4.1 卷積層卷積層目的是應用卷積運算,提取任意輸入矩陣隱含高階特征的過程11。通過不同高度卷積核在上滑動計算,得到不同卷積核的卷積
12、序列,卷積序列構成特征面,其中l表示卷積核高度,a表示文本向量維度。實際是利用輸入與進行內卷積的結果集,再加上偏置得到的結果,具體過程如圖3所示。考慮到預處理后的短文本數據包含較少數量特征詞語的特點,設置卷積窗口為5,卷積步長為1,實驗效果最好。圖3中,f是激活函數tanh,用于對卷積結果作平滑。其目的在于為神經網絡引入非線性,確保輸入與輸出之前的曲線關系。卷積層結果是經過多個卷積核的特征面集合H。h為不同高度詞向量序列經過不同卷積核形成的新特征面,同時作為下一層池化層輸入神經元。3.4.2 池化層池化層就是對高維的特征面集合進行降采樣操作,防止過度擬合,以及提高計算性能。池化過程一般將輸入特
13、征劃分為若干個大小的子區域,每個子區域經過池化,常用的池化做法是max-pooling,對應輸出相應池化操作后的值。對每一卷積核提取的特征面進行操作,最后每一個卷積核對應一個值,把這些值拼接起來,就得到一個表征該句子的新特征量。3.4.3 分類層池化層輸出M個數據的新特征量及對應的類別組合,其形式如,其中輸入特征為進過前兩層處理得到的特征向量,為文本類別。對于給定測試集文本向量x,可以通過softmax函數進行分類:exp表示以e為底數的指數函數,為估值參數,取值由最小代價函數估算,公式如下:函數的返回值為C個分量的概率值,每個分量對應于一個輸出類別的概率,以此劃分該文本所屬類型信息,完成分類
14、。4 實驗分析(Experimental analysis)為了驗證CNN和LDA主題模型的短文本分類模型的有效性,本文以搜狗實驗室新聞標題為短文本實驗數據,選擇標簽范圍內的Film、Food、Manga、Entertainment、Constellation、Military六大類新聞數據,以8:2為訓練測試比例劃分不同類別數據集,如表2所示,Dss(Data set size)表示不同類別數據集大小,Ds(Dictinary size)表示數據集對應詞典大小,Train表示訓練集大小,Test表示測試集大小。詞向量維度體現文本詞義特征,主題向量維度體現文本語義特征,兩向量的有效拼接,依賴于
15、詞向量維度與LDA主題向量維度保持一致,不同維度對分類準確率影響不同,一般在100,200,實驗以5為跨度值,驗證維度的具體選取過程,如圖4所示。圖4中顯示,兩向量維度取150,分類準確度最高。Ye Zhang等12通過不同數據集上網格搜索的差異性,測試了卷積神經網絡的不同參數配比對分類文本的影響,實驗顯示針對小規模數據集,卷積核數一般等同于詞向量維度,數目過大將導致池化層數據特征離散化,卷積核的窗口高度應設置為3150、4150、5150,其他模型參數如表3所示,為經驗配比。文本經過卷積層和池化層操作,由原始的輸入特征矩陣,轉化為維度為360的特征向量,便于下一步的特征分類。驗證改進算法有效
16、性,設置Method1為基于one-hot的卷積神經網絡分類算法,Method2為基于詞向量的卷積神經網絡分類算法,Method3為改進的卷積神經網絡分類算法,從算法的分類準確率進行比較(表4)。實驗結果顯示,分類準確率受數據集大小和輸入數據特征的影響,改進的方法分類準確率最高達到91.2%,平均意義上,方法三比方法二準確率提高了2.8%,比方法一提高了19.8%,證明了改進的方法確實提高了文本分類的準確率。5 結論(Conclusion)本文改進的短文本分類方法,豐富了卷積神經網絡輸入矩陣特征,提出了結合詞粒度層面的詞向量和語義粒度層面的主題向量的具體改進方法,提高了傳統卷積神經網絡輸入矩陣
17、,特征表示不充分,影響文本分類效果的問題,通過實驗對比分析,進一步驗證了豐富輸入矩陣改進卷積神經網絡文本分類的有效性,為基于卷積神經網絡進行文本的研究提出了新的思路。參考文獻(References)1 Wang P,Xu B,Xu J,et al.Semantic expansion using word embedding clustering and convolutional neural network for improving short text classificationJ.Neurocomputing,2016,174(PB):806-814.2 Mathew J,Radh
18、akrishnan D.An FIR digital filter using one-hot coded residue representationC.Signal Processing Conference,2000,European.IEEE,2008:1-4.3 Carrera-TrejoV,SidorovG,Miranda-Jimnez S,et al.Latent Dirichlet Allocation complement in the vector space model for Multi-Label Text ClassificationJ.Cancer Biology
19、 & Therapy,2015,7(7):1095-1097.4 Bojanowski P,Grave E,Joulin A,et al.Enriching Word Vectors with Subword InformationJ.EMNLP 2016,2016:26-27.5 唐明,朱磊,鄒顯春.基于Word2Vec的一種文檔向量表示J.計算機科學,2016,43(6):214-217.6 Duan Y.Application of SVM in Text CategorizationJ.Computer & Digital Engineering,2012,22(7):318-321.7 張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法J.計算機應用,2013,33(6):1587-1590.8 Johnson R,Zhang T.Effective Use of Word Order for Tex
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新解讀《CB-T 756 - 1999柄式開關》新解讀
- 交通標線施工方案
- Brand KPIs for neobanking Angel One in India-英文培訓課件2025.4
- 江蘇省南京市江寧區2023-2024學年四年級下學期數學期末試卷(含答案)
- Brand KPIs for health insurance:The Exeter in the United Kingdom-英文培訓課件2025.4
- 介紹班級區域活動方案
- 從化別墅活動方案
- 倉山中學活動方案
- 倉庫直銷活動方案
- 代工單位活動方案
- 2025年高考全國二卷數學高考真題解析 含參考答案
- 2025年普通高等學校招生全國統一考試數學試題(全國一卷)(有解析)
- 防火門施工方案及工藝流程
- 2025春季學期國開電大專科《中級財務會計(二)》一平臺在線形考(第一至四次形考任務)試題及答案
- 2025年日歷表全年(打印版)完整清新每月一張
- 2024年浙江省中考數學試題及答案
- 2024年湖南省中考道德與法治試題卷(含答案)
- MOOC 學術英語寫作-東南大學 中國大學慕課答案
- 國開經濟學(本)1-14章練習試題及答案
- DB33∕T 1219-2020 建設工程圖紙數字化管理標準
- 型鍋爐高硫無煙煤煙氣袋式除塵濕式脫硫系統設計
評論
0/150
提交評論