文本特征提取技術03_第1頁
文本特征提取技術03_第2頁
文本特征提取技術03_第3頁
文本特征提取技術03_第4頁
文本特征提取技術03_第5頁
已閱讀5頁,還剩52頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、文本特征提取2022-6-22 五校聯合 大數據分析碩士培養非結構化數據分析主要內容2022-6-22非結構化數據分析文本表示特征提取特征權重文本表示文本表示第一講:文本挖掘簡介2022-6-22非結構化數據分析文本表示及文本預處理2022-6-22非結構化數據分析去掉html一些tag標記停用詞(stop words)去除、詞根還原(stemming)(中文)分詞、詞性標注、短語識別、詞頻統計(TFIDF)數據清洗:去掉噪聲文檔或文檔內垃圾數據向量空間模型G.Salton,19712022-6-22非結構化數據分析向量空間模型(Vector Space Model)自然語言處理常用模型基本概

2、念文檔(Document):句子、段落、整篇文章特征項(Term/Feature):詞根/詞/短語/其他項的權重(Weight):每個特征項在文檔中的重要程度。VSM示意圖數據結構化一般思路2022-6-22非結構化數據分析特征詞特征詞1特征詞特征詞2特征詞特征詞3特征詞特征詞n文檔文檔1權重11權重12權重13權重1n文檔文檔2權重21權重22權重23權重2n文檔文檔3權重31權重32權重33權重3n文檔文檔4權重41權重42權重43權重4n文檔文檔m權重m1權重m2權重m3權重mnVSM示意圖相似度比較內積計算Cosine計算2022-6-22非結構化數據分析文本表示注解2022-6-22

3、非結構化數據分析文本表示注解2022-6-22非結構化數據分析用單個漢字(對應英語語系中的字符串)做特征,不考慮詞語的含義。直接利用漢字在文本中出現的統計特性對文本進行劃分;直觀明了,且操作簡單,尤其對于英文文本或其他西語文本的劃分非常容易,計算機可以直接利用空格進行分隔。但是基于單個漢字表示方法往往無法很好的代表語義信息。比較之下,使用詞做特征成為一種更好的選擇。詞是中文語義的最小信息單位,詞可以更好的反映句子中的信息,但是分析難度也提升了。以中文文本為例,詞與詞之間沒有明確的分隔標記,計算機無法自動識別詞語的邊界,因此正確分詞是這種表示方法的關鍵。該方法比較常用。文本表示注解2022-6-

4、22非結構化數據分析詞性(Part Of Speech,POS)作為特征可以更好的識別詞語之間的關系。讓計算機來自動地給文本中的詞標注詞性,然后利用詞性進行詞義分析。如:什么樣的名詞經常和什么樣的動詞同時出現,這對于詞語之間關系的研究開拓了新的思路。詞性標注技術的成熟為詞組組塊(Phrase Chunking)的界定與實體及關系(Entities and Relationship)的識別打下了良好的基礎,有利于我們更深入的探索文本語義的信息。且詞組的形式提高了特征向量的語義含量,使得向量更稀疏。近年來,詞性標注(POS-tagging)、詞組組塊(Phrase Chunking)、實體及關系(

5、Entities and Relationship )相關的研究也開展了很多,取得了很多可喜的成果,有興趣的讀者可以參考后面所附的文獻進行深入學習。特征權重2022-6-22非結構化數據分析特征權重2022-6-22非結構化數據分析衡量某個特征項在文檔表示中的重要程度或者區分能力的強弱更好的對文本進行表示一般利用文本的統計信息:詞頻常用的權重計算方法2022-6-22非結構化數據分析TF-IDF 例子 ( Salton et al.,1983 )2022-6-22非結構化數據分析假設抓取了來自門戶網站“經濟”“娛樂”“科技”三個版塊各300篇文章,其中有一篇文章,共有100個詞,其中“粒子”“

6、和”“應用”三個詞分別出現了 5次、35次和15次,我們想將該文檔進行歸類,看它屬于“經濟”“娛樂”“科技”文檔中的哪一類。初步分析認為,“粒子”、“應用”兩個詞應該對文章分類的作用較大,而“和”對于文章的分析意義不大。 更進一步的,如果目標是進行文檔的歸類,有理由認為“粒子”一詞對于該文章的歸屬的貢獻要高于“應用”。“應用”一詞的專業性不及“粒子”。TF-IDF 應用舉例2022-6-22非結構化數據分析詞語詞語詞頻(詞頻(TF)文檔頻率文檔頻率(DF )文檔逆頻率文檔逆頻率(IDF)權重(權重(TF*IDF)粒子粒子0.05509000.063和和0.359009000應用應用0.1545

7、09000.045但是如果只關注詞頻 ,“應用”一詞的權重更高。這時候,可以利用IDF的計算公式進行權重的處理,計算三個詞的文檔頻率和文檔逆頻率,假設50篇文章中出現了“粒子”一詞,450篇文章中出現了“應用”一詞,900篇文章中均出現了“和”這個詞語。那么采用TF*IDF方法計算得到的權重如下:特征權重注解2022-6-22非結構化數據分析特征加權方法最初用于信息檢索,特征加權主要有三個層次,局部加權、全局加權和標準化(Chisholm et al.,1999)。一般化的特征加權表示式如下: 是詞語w在文檔d中的局部權重。 是詞語w在文檔集合中的全局權重, 是文檔d的標準化因子。局部加權僅使

8、用詞語在文檔中出現的統計量,而全局加權則使用整個數據集中的統計量進行計算。( ) ( )ddL w G w N( )dL w( )G wdN特征提取特征提取2022-6-22非結構化數據分析特征提取的意義2022-6-22非結構化數據分析文本集合包含的特征太多10,000 1,000,000 unique words and more特征減少后,某些算法才能使用有些分類方法無法處理1,000,000以上的特征減少訓練時間有些分類方法的訓練時間與特征個數的平方成正比,或更糟使預測模型更快、更小能提升總體性能Eliminates noise featuresAvoids overfitting特征

9、提取思路2022-6-22非結構化數據分析特征選擇(Feature Selection)文檔頻率信息增益卡方統計量互信息特征重構(Re-parameterisation)潛在語義分析文檔頻率(Document Frequency,DF)2022-6-22非結構化數據分析文檔頻率(DF)指文本數據中包含某個詞條的文檔的個數。通過文檔頻率進行特征選擇就是按照文檔頻率的大小對詞條進行排序,將文檔頻率小于某一閾值的詞刪除,從而降低特征空間的維數。文檔頻率2022-6-22非結構化數據分析基于DF的啟發式要點太頻繁的詞項沒有區分度, DF大于某個閾值去掉太稀有的詞項獨立表達的類別信息不強稀有詞項的全局影

10、響力不大在訓練集中,某些文檔如果有某個稀有詞項,它們通常也會有一些常見詞項(對那一類)和通常信息獲取觀念有些抵觸:稀有的更有代表性(這是一種ad hoc方法,不依據什么理論)最容易實現,可擴展性好文檔頻率2022-6-22非結構化數據分析Baeza-Yates and Ribeiro-Neto(1990)研究表明,若一個特征在語料集80%的文檔中都出現了,它對于分類來說是無意義的。這樣的詞語主要是指停用詞等,通過對這部分詞語的壓縮,可以使特征向量空間壓縮到原始的40%或者更多。對于出現頻率過低的詞語,考慮到增加一個變量對于現實帶來的成本,一般不利用這樣的詞語,而是盡可能少的選取其他詞條。Yan

11、g and Pedersen(1997)試驗表明:在分類效果沒有變差的前提下將特征空間的維數約減為原來的1/10是可能的,約減為1/100所帶來的損失很小。熵2022-6-22非結構化數據分析對分類系統來說,文檔類別C的可能取值是每一個類別出現的概率是 為類別的總數,熵定義為:21(MiiiEntropy(C)= -p C )log p(C )12(),(),()iP CP CP CM12,iC CC熵/ 平均熵2022-6-22非結構化數據分析在觀察到特征項 以后,文檔落入某個文檔類的概率就應該是條件概率 此時系統的熵為:該特征項的熵:該值越大,說明分布越均勻,越有可能出現在較多的類別中;該

12、值越小,說明分布越傾斜,特征項可能出現在較少的類別中t(| )iP Ct21| )| )MiiiEntropy(t)= -p(C t log (C t信息增益(Information Gain, IG)2022-6-22非結構化數據分析該term為整個分類所能提供的信息量特征項出現與否導致的熵的變化考慮和不考慮特征的熵的差值信息增益2022-6-22非結構化數據分析1111111logloglogMMmjmjmjmjjjmjmjjmmmjmjmjmjMjjmjmjmmjmjmjmjPUPUPUPPIGIIIPQPQVUUUIUVUV 111()log()()(|)log(|)()(|)log(

13、|)MMMjmmjmjmjjmjmjmmmIGp Cp Cp Tp CTp CTp Tp CTp CT 信息增益2022-6-22非結構化數據分析信息量與變量可能的變化有關,跟變量具體的取值沒有任何關系,只和變量所取的種類多少以及發生概率有關),種類和發生概率決定了信息量的大小。 Quinlan提到了這一點,信息增益的方法總是傾向于選擇有多種屬性的特征。 只能考察特征對整個系統的貢獻,而不能具體到某個類別上,這就使得它只適合用來做所謂“全局”的特征選擇(指所有的類都使用相同的特征集合),而無法做“局部”的特征選擇(每個類別有自己的特征集合,因為有的詞,對這個類別很有區分度,對另一個類別則無足輕

14、重)。 2 統計量2022-6-22非結構化數據分析基本思想通過觀察實際值與理論值的偏差來確定理論的正確與否。假設兩個變量確實是獨立的,然后觀察實際值與理論值的偏差程度。如果偏差足夠小,認為誤差是很自然的樣本誤差,兩者確實獨立;如果偏差大到一定程度,使得這樣的誤差不太可能是偶然產生或者測量不精確所致,認為兩者相關。2022-6-22非結構化數據分析那么偏差為:2 統計量2022-6-22非結構化數據分析2 統計量2022-6-22非結構化數據分析卡方度量兩者(term和類別)獨立性的缺乏程度2 越大,獨立性越小,相關性越大若ADBC,則類和詞獨立, N=A+B+C+D低頻詞缺陷2022-6-2

15、2非結構化數據分析只統計文檔中是否出現詞條T,卻忽略了詞條T在文檔中出現頻率的信息,使得卡方檢驗對低頻詞有所偏袒,這就夸大了低頻詞的作用。如果某一特征只在一類文檔中頻繁出現,通過卡方法計算出來的卡方統計量很低,在特征選擇時這種特征詞就會被排除掉,但是這種在少量文檔中頻繁出現的特征詞很有可能對分類的貢獻很大,比如專指概念。互信息法(Mutual Information, MI)2022-6-22非結構化數據分析MI越大,特征項t和c共現程度越大(N=A+B+C+D)互信息特點2022-6-22非結構化數據分析MI(t,C)的值越大,t對于C的區分能力越強對同一個類,不同的詞項,在同樣P(t|C)

16、情況下,相對稀有的t 會得到較大的值,即MI受到詞條邊際概率的影響,從下面的公式中可得:log(|)log()mjjmjMIp TCp T(&)*loglog()* ()()*()jmmjmjjmmjmjmjmjp TCPIMIp Tp CPUPQ潛在語義分析潛在語義分析 (Latent Semantic Analysis,LSA)2022-6-22非結構化數據分析特征重構方法SVD分解是LSA的數學基礎特征值與特征向量實對稱矩陣的正交化SVD矩陣分解低階近似設A是n階方陣,如果數 和n維非零列向量 ,使:成立,則稱數 為方陣A的一個特征值,非零列向量 稱為A的對應于特征值 的特征向量(或稱為

17、A的屬于特征值 的特征 向量)。A具體步驟為具體步驟為 將特征向量正交化;3.再將特征向量單位化.4.;0. 2特征向量求出由AxAIi:. 1的特征值求A;,21m階方陣為mmA利用正交矩陣將實對稱矩陣對角化這樣共可得到m個兩兩正交的單位特征向量有m21AQQ1AQQTmQ,21m,215. 以 為列向量構成正交矩陣m,21實對稱矩陣正交化由可得TQQA其中Q的列為矩陣A的單位正交特征向量, 仍表示對角矩陣,其中對角線上的值為A的特征值,按從大到小排列。最后,QT=Q-1,因為正交矩陣的逆等于其轉置。 AQQAQQT1實對稱矩陣對角化 已知矩陣A,尋找行空間的一組標準正交基記為V,通過A作用

18、到行空間的這組標準正交基上AV ,得到列空間的一組基向量,記為B,把B標準化后得U,這里就可以得到 用分量的形式表示: 奇異值分解SVDAVU=S1212r12rr(vvv )=uuuAddd驏琪琪琪琪琪琪桫() 對于 ,方程兩邊同乘 ,可以得到 , 由于V是標準正交基構成的矩陣,有 , 因此可得: 1V-1TVV-=TAU V=S U,V求解? 由 ,可以得到: 而 為對稱非負定矩陣, 為對角矩陣,可以得到 為 的特征向量構成的矩陣 。 TU UI=TA ATS SVTA ATTTTTTA AVU U VVV=SS=S SAVU= S-1AU V=S低階近似和F-范數2022-6-22非結構

19、化數據分析令 表示一個 階的原始數據矩陣, 矩陣的秩為 為了不失一般性,我們假定 的均值為0,SVD奇異值分解可以表示成下面的過程:根據著名Eckart and Young(1936)年的結果,對于任意的 有:在Frobenius范數下,SVD的前r 個元素給出了矩陣的秩為r 的一個最優估計。Xnpmin( , )kn pXTXUDVTnU UITpV VI120Kddd,rk2( )1arg minrTkkkX M rkFd u vXX潛在語義分析(Latent Semantic Analysis, LSA,1990,Deerwester et.al)2022-6-22非結構化數據分析LSA

20、是文本分析中一種常用的降維技術。該方法以文檔詞頻矩陣為基礎進行分析,得到了向量空間模型中文檔的高維表示,并通過投影形成文檔在潛在語義空間中的低維表示。理論依據是我們認為有一種潛在的語義結構隱含在文檔中詞語的上下文使用模式中,而文檔詞頻共現矩陣在一定程度上可以反映出詞和不同主題之間的關系。潛在語義分析方法很好的解決了同義詞和一詞多義等現象給文本分析造成的困難。LSA被提出后,被廣泛用于文本檢索和聚、分類技術中。LSA 理解2022-6-22非結構化數據分析 X表示一個文檔和詞語的共現頻率矩陣 , X的每一行均代表一個文檔向量,每一列代表詞語向量。LSA將每個文本視為以詞語(特征)為維度的空間中的

21、一個點,認為一個包含語義的文本出現在這種空間中,它的分布不是隨機的,而是應該服從某種語義結構。同樣地,也將每個詞語視為以文檔為維度的空間中的一個點。文檔是由詞語組成的,而詞語又要放到文本中去理解,體現了一種“詞語-文檔”之間的雙重概率關系。ijXxLSA 示意圖2022-6-22非結構化數據分析2022-6-22非結構化數據分析性質2022-6-22非結構化數據分析從數據壓縮的角度看,“近似矩陣”是秩為 K的前提下矩陣X 的最小二乘意義下的最佳近似。LSA不同于向量空間模型中文本和詞語的高維表示,它將文本和詞語的高維表示投影在低維的潛在語義空間中,縮小了問題的規模,得到詞語和文本的相對不那么稀

22、疏的低維表示,同時這種低維表示揭示出了“文檔-語義-詞語” 之間的聯系。K值的選擇2022-6-22非結構化數據分析k值過大則會使運算量增大,一般選特征值個數 時,對于 ,可令 滿足貢獻率不等式: ( 可取40%,50%)11/kKiidd12diag( ,)Kd dd1210kkddddkk潛語義分析缺點2022-6-22非結構化數據分析但是可以注意到 , 分解的兩個向量元素,可以為正值,也可以為負值,這些性質導致 和 總是很難解釋。潛在語義分析過程中奇異值分解的物理意義不夠明確,較難控制詞義聚類的效果;此外該算法涉及高維且復雜的矩陣運算,這使得其在計算機上的實現也存在一定的困難。LSI應用

23、例子2022-6-22非結構化數據分析編號編號 文本文本Doc1 我們學習了探索性數據分析課程。我們學習了探索性數據分析課程。Doc2 數據分析數據分析是指用適當的統計分析方法對收集來的大量數據進行分析。是指用適當的統計分析方法對收集來的大量數據進行分析。Doc3 數據分析數據分析:一般要分析的目標比較明確,分析條件也比較清楚。一般要分析的目標比較明確,分析條件也比較清楚。Doc4 數據分析可幫助人們作出判斷,以便采取適當行動。數據分析可幫助人們作出判斷,以便采取適當行動。Doc5 數據數據挖掘一般指從大量的數據中通過算法搜索隱藏于其中的信息的過程。挖掘一般指從大量的數據中通過算法搜索隱藏于其

24、中的信息的過程。Doc6 數據挖掘:目標不是很清晰,要依靠挖掘算法來找出隱藏在大量數據中的數據挖掘:目標不是很清晰,要依靠挖掘算法來找出隱藏在大量數據中的規則、模式、規律等。規則、模式、規律等。處理稀疏詞匯后文本矩陣2022-6-22非結構化數據分析詞詞 匯匯Doc1Doc2Doc3Doc4Doc5Doc6方方 法法010000分分 析析132100目目 標標000001判判 斷斷000100數數 據據021112算算 法法000011挖挖 掘掘000012隱隱 藏藏000010利用VSM得到相似度2022-6-22非結構化數據分析上述實例文本字數較少,我們采用余弦公式計算相似度。在VSM中是

25、把每一行作為對應詞匯的詞匯向量的,則通過計算“數據”和“分析”的相似度為0.700,“數據”和“挖掘”的相似度為0.674,“分析”和“挖掘”的相似度為0,可見在VSM中,“分析”和“挖掘”沒有任何關系的,但是,事實究竟是怎樣的呢?。我們都知道,“分析”和“挖掘”都是對數據進行的處理,而且如今大數據技術的興起,更是拉近了兩者間的關系。我們當然希望在檢索“分析”時,那些關于“挖掘”的文本也都出現在檢索結果中。大家知道,LSI可以比較有效的解決同義詞和多義詞的問題,因為LSI是把詞匯和文本通過數學方法投影到相同的潛在語義空間中,在此空間中,可以實現語義近的詞匯或文本距離更相近,反之亦然。比如:同義詞雖然“形態”不同,但是在此空間距離會很近。特征值向量2022-6-22非結構化數據分析01.3141.0421.0081.0000.1640.053S近似矩陣2022-6-22非結構化數據分析2 0.0005774922 -0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論