




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
文本特征提取2023/9/2五校聯合大數據分析碩士培養非結構化數據分析主要內容2023/9/2非結構化數據分析文本表示特征提取特征權重文本表示第一講:文本挖掘簡介2023/9/2非結構化數據分析文本表示及文本預處理2023/9/2非結構化數據分析去掉html一些tag標記停用詞(stopwords)去除、詞根還原(stemming)(中文)分詞、詞性標注、短語識別、…詞頻統計(TFIDF)數據清洗:去掉噪聲文檔或文檔內垃圾數據向量空間模型[G.Salton,1971]2023/9/2非結構化數據分析向量空間模型(VectorSpaceModel)自然語言處理常用模型基本概念文檔(Document):句子、段落、整篇文章特征項(Term/Feature):詞根/詞/短語/其他項的權重(Weight):每個特征項在文檔中的重要程度。
VSM示意圖—數據結構化一般思路2023/9/2非結構化數據分析特征詞1特征詞2特征詞3……特征詞n文檔1權重11權重12權重13……權重1n文檔2權重21權重22權重23……權重2n文檔3權重31權重32權重33……權重3n文檔4權重41權重42權重43……權重4n………………………………文檔m權重m1權重m2權重m3……權重mnVSM示意圖相似度比較內積計算Cosine計算2023/9/2非結構化數據分析
文本表示注解2023/9/2非結構化數據分析文本表示注解2023/9/2非結構化數據分析用單個漢字(對應英語語系中的字符串)做特征,不考慮詞語的含義。直接利用漢字在文本中出現的統計特性對文本進行劃分;直觀明了,且操作簡單,尤其對于英文文本或其他西語文本的劃分非常容易,計算機可以直接利用空格進行分隔。但是基于單個漢字表示方法往往無法很好的代表語義信息。比較之下,使用詞做特征成為一種更好的選擇。詞是中文語義的最小信息單位,詞可以更好的反映句子中的信息,但是分析難度也提升了。以中文文本為例,詞與詞之間沒有明確的分隔標記,計算機無法自動識別詞語的邊界,因此正確分詞是這種表示方法的關鍵。該方法比較常用。文本表示注解2023/9/2非結構化數據分析詞性(PartOfSpeech,POS)作為特征可以更好的識別詞語之間的關系。讓計算機來自動地給文本中的詞標注詞性,然后利用詞性進行詞義分析。如:什么樣的名詞經常和什么樣的動詞同時出現,這對于詞語之間關系的研究開拓了新的思路。詞性標注技術的成熟為詞組組塊(PhraseChunking)的界定與實體及關系(EntitiesandRelationship)的識別打下了良好的基礎,有利于我們更深入的探索文本語義的信息。且詞組的形式提高了特征向量的語義含量,使得向量更稀疏。近年來,詞性標注(POS-tagging)、詞組組塊(PhraseChunking)、實體及關系(EntitiesandRelationship)相關的研究也開展了很多,取得了很多可喜的成果,有興趣的讀者可以參考后面所附的文獻進行深入學習。特征權重2023/9/2非結構化數據分析特征權重2023/9/2非結構化數據分析衡量某個特征項在文檔表示中的重要程度或者區分能力的強弱更好的對文本進行表示一般利用文本的統計信息:詞頻常用的權重計算方法2023/9/2非結構化數據分析
TF-IDF例子(Saltonetal.,1983)2023/9/2非結構化數據分析假設抓取了來自門戶網站“經濟”“娛樂”“科技”三個版塊各300篇文章,其中有一篇文章,共有100個詞,其中“粒子”“和”“應用”三個詞分別出現了5次、35次和15次,我們想將該文檔進行歸類,看它屬于“經濟”“娛樂”“科技”文檔中的哪一類。初步分析認為,“粒子”、“應用”兩個詞應該對文章分類的作用較大,而“和”對于文章的分析意義不大。更進一步的,如果目標是進行文檔的歸類,有理由認為“粒子”一詞對于該文章的歸屬的貢獻要高于“應用”?!皯谩币辉~的專業性不及“粒子”。TF-IDF
應用舉例2023/9/2非結構化數據分析詞語詞頻(TF)文檔頻率(DF)文檔逆頻率(IDF)權重(TF*IDF)粒子0.05509000.063和0.359009000應用0.154509000.045但是如果只關注詞頻
,“應用”一詞的權重更高。這時候,可以利用IDF的計算公式進行權重的處理,計算三個詞的文檔頻率和文檔逆頻率,假設50篇文章中出現了“粒子”一詞,450篇文章中出現了“應用”一詞,900篇文章中均出現了“和”這個詞語。那么采用TF*IDF方法計算得到的權重如下:特征權重注解2023/9/2非結構化數據分析特征加權方法最初用于信息檢索,特征加權主要有三個層次,局部加權、全局加權和標準化(Chisholmetal.,1999)。一般化的特征加權表示式如下:
是詞語w在文檔d中的局部權重。
是詞語w在文檔集合中的全局權重,
是文檔d的標準化因子。局部加權僅使用詞語在文檔中出現的統計量,而全局加權則使用整個數據集中的統計量進行計算。特征提取2023/9/2非結構化數據分析特征提取的意義2023/9/2非結構化數據分析文本集合包含的特征太多10,000–1,000,000uniquewords…andmore特征減少后,某些算法才能使用有些分類方法無法處理1,000,000以上的特征減少訓練時間有些分類方法的訓練時間與特征個數的平方成正比,或更糟使預測模型更快、更小能提升總體性能EliminatesnoisefeaturesAvoidsoverfitting特征提取思路2023/9/2非結構化數據分析特征選擇(FeatureSelection)文檔頻率信息增益卡方統計量互信息特征重構(Re-parameterisation)潛在語義分析文檔頻率(DocumentFrequency,DF)2023/9/2非結構化數據分析文檔頻率(DF)指文本數據中包含某個詞條的文檔的個數。通過文檔頻率進行特征選擇就是按照文檔頻率的大小對詞條進行排序,將文檔頻率小于某一閾值的詞刪除,從而降低特征空間的維數。文檔頻率2023/9/2非結構化數據分析基于DF的啟發式要點太頻繁的詞項沒有區分度,DF大于某個閾值去掉太稀有的詞項獨立表達的類別信息不強稀有詞項的全局影響力不大在訓練集中,某些文檔如果有某個稀有詞項,它們通常也會有一些常見詞項(對那一類)和通常信息獲取觀念有些抵觸:稀有的更有代表性(這是一種adhoc方法,不依據什么理論)最容易實現,可擴展性好文檔頻率2023/9/2非結構化數據分析Baeza-YatesandRibeiro-Neto(1990)研究表明,若一個特征在語料集80%的文檔中都出現了,它對于分類來說是無意義的。這樣的詞語主要是指停用詞等,通過對這部分詞語的壓縮,可以使特征向量空間壓縮到原始的40%或者更多。對于出現頻率過低的詞語,考慮到增加一個變量對于現實帶來的成本,一般不利用這樣的詞語,而是盡可能少的選取其他詞條。YangandPedersen(1997)試驗表明:在分類效果沒有變差的前提下將特征空間的維數約減為原來的1/10是可能的,約減為1/100所帶來的損失很小。熵2023/9/2非結構化數據分析對分類系統來說,文檔類別C的可能取值是每一個類別出現的概率是
為類別的總數,熵定義為:熵/平均熵2023/9/2非結構化數據分析在觀察到特征項
以后,文檔落入某個文檔類的概率就應該是條件概率此時系統的熵為:該特征項的熵:該值越大,說明分布越均勻,越有可能出現在較多的類別中;該值越小,說明分布越傾斜,特征項可能出現在較少的類別中信息增益(InformationGain,IG)2023/9/2非結構化數據分析該term為整個分類所能提供的信息量特征項出現與否導致的熵的變化考慮和不考慮特征的熵的差值
信息增益2023/9/2非結構化數據分析信息增益2023/9/2非結構化數據分析信息量與變量可能的變化有關,跟變量具體的取值沒有任何關系,只和變量所取的種類多少以及發生概率有關),種類和發生概率決定了信息量的大小。Quinlan提到了這一點,信息增益的方法總是傾向于選擇有多種屬性的特征。只能考察特征對整個系統的貢獻,而不能具體到某個類別上,這就使得它只適合用來做所謂“全局”的特征選擇(指所有的類都使用相同的特征集合),而無法做“局部”的特征選擇(每個類別有自己的特征集合,因為有的詞,對這個類別很有區分度,對另一個類別則無足輕重)。χ2統計量2023/9/2非結構化數據分析基本思想通過觀察實際值與理論值的偏差來確定理論的正確與否。假設兩個變量確實是獨立的,然后觀察實際值與理論值的偏差程度。如果偏差足夠小,認為誤差是很自然的樣本誤差,兩者確實獨立;如果偏差大到一定程度,使得這樣的誤差不太可能是偶然產生或者測量不精確所致,認為兩者相關。2023/9/2非結構化數據分析那么偏差為:χ2統計量2023/9/2非結構化數據分析χ2統計量2023/9/2非結構化數據分析卡方度量兩者(term和類別)獨立性的缺乏程度χ2越大,獨立性越小,相關性越大若AD<BC,則類和詞獨立,N=A+B+C+D低頻詞缺陷2023/9/2非結構化數據分析只統計文檔中是否出現詞條T,卻忽略了詞條T在文檔中出現頻率的信息,使得卡方檢驗對低頻詞有所偏袒,這就夸大了低頻詞的作用。如果某一特征只在一類文檔中頻繁出現,通過卡方法計算出來的卡方統計量很低,在特征選擇時這種特征詞就會被排除掉,但是這種在少量文檔中頻繁出現的特征詞很有可能對分類的貢獻很大,比如專指概念?;バ畔⒎?MutualInformation,MI)2023/9/2非結構化數據分析MI越大,特征項t和c共現程度越大(N=A+B+C+D)互信息特點2023/9/2非結構化數據分析MI(t,C)的值越大,t對于C的區分能力越強對同一個類,不同的詞項,在同樣P(t|C)情況下,相對稀有的t會得到較大的值,即MI受到詞條邊際概率的影響,從下面的公式中可得:
潛在語義分析
(LatentSemanticAnalysis,LSA)2023/9/2非結構化數據分析特征重構方法SVD分解是LSA的數學基礎特征值與特征向量實對稱矩陣的正交化SVD矩陣分解低階近似特征值/特征向量設A是n階方陣,如果數和n維非零列向量,使:
成立,則稱數為方陣A的一個特征值,非零列向量稱為A的對應于特征值的特征向量(或稱為A的屬于特征值的特征向量)。具體步驟為
將特征向量正交化;3.再將特征向量單位化.4.利用正交矩陣將實對稱矩陣對角化這樣共可得到m個兩兩正交的單位特征向量有5.以為列向量構成正交矩陣實對稱矩陣正交化由可得其中Q的列為矩陣A的單位正交特征向量,仍表示對角矩陣,其中對角線上的值為A的特征值,按從大到小排列。最后,QT=Q-1,因為正交矩陣的逆等于其轉置。實對稱矩陣對角化
已知矩陣A,尋找行空間的一組標準正交基記為V,通過A作用到行空間的這組標準正交基上AV,得到列空間的一組基向量,記為B,把B標準化后得U,這里就可以得到用分量的形式表示:
奇異值分解SVD對于
,方程兩邊同乘,可以得到,由于V是標準正交基構成的矩陣,有,因此可得:
U,V求解?
由,可以得到:
而
為對稱非負定矩陣,為對角矩陣,可以得到為的特征向量構成的矩陣。
低階近似和F-范數2023/9/2非結構化數據分析令
表示一個
階的原始數據矩陣,矩陣的秩為
為了不失一般性,我們假定
的均值為0,SVD奇異值分解可以表示成下面的過程:根據著名EckartandYoung(1936)年的結果,對于任意的有:在Frobenius范數下,SVD的前r個元素給出了矩陣的秩為r的一個最優估計。,,
潛在語義分析(LatentSemanticAnalysis,LSA,1990,Deerwesteret.al)2023/9/2非結構化數據分析LSA是文本分析中一種常用的降維技術。該方法以文檔詞頻矩陣為基礎進行分析,得到了向量空間模型中文檔的高維表示,并通過投影形成文檔在潛在語義空間中的低維表示。理論依據是我們認為有一種潛在的語義結構隱含在文檔中詞語的上下文使用模式中,而文檔詞頻共現矩陣在一定程度上可以反映出詞和不同主題之間的關系。潛在語義分析方法很好的解決了同義詞和一詞多義等現象給文本分析造成的困難。LSA被提出后,被廣泛用于文本檢索和聚、分類技術中。LSA理解2023/9/2非結構化數據分析
X表示一個文檔和詞語的共現頻率矩陣,X的每一行均代表一個文檔向量,每一列代表詞語向量。LSA將每個文本視為以詞語(特征)為維度的空間中的一個點,認為一個包含語義的文本出現在這種空間中,它的分布不是隨機的,而是應該服從某種語義結構。同樣地,也將每個詞語視為以文檔為維度的空間中的一個點。文檔是由詞語組成的,而詞語又要放到文本中去理解,體現了一種“詞語-文檔”之間的雙重概率關系。LSA示意圖2023/9/2非結構化數據分析2023/9/2非結構化數據分析性質2023/9/2非結構化數據分析從數據壓縮的角度看,“近似矩陣”是秩為
K的前提下矩陣X的最小二乘意義下的最佳近似。LSA不同于向量空間模型中文本和詞語的高維表示,它將文本和詞語的高維表示投影在低維的潛在語義空間中,縮小了問題的規模,得到詞語和文本的相對不那么稀疏的低維表示,同時這種低維表示揭示出了“文檔-語義-詞語”之間的聯系。K值的選擇2023/9/2非結構化數據分析k值過大則會使運算量增大,一般選特征值個數
時,對于,可令滿足貢獻率不等式:
(
可取40%,50%....)潛語義分析缺點2023/9/2非結構化數據分析但是可以注意到
,
分解的兩個向量元素,可以為正值,也可以為負值,這些性質導致
和
總是很難解釋。潛在語義分析過程中奇異值分解的物理意義不夠明確,較難控制詞義聚類的效果;此外該算法涉及高維且復雜的矩陣運算,這使得其在計算機上的實現也存在一定的困難。LSI應用例子2023/9/2非結構化數據分析編號
文本Doc1我們學習了探索性數據分析課程。Doc2數據分析是指用適當的統計分析方法對收集來的大量數據進行分析。Doc3數據分析:一般要分析的目標比較明確,分析條件也比較清楚。Doc4數據分析可幫助人們作出判斷,以便采取適當行動。Doc5數據挖掘一般指從大量的數據中通過算法搜索隱藏于其中的信息的過程。Doc6數據挖掘:目標不是很清晰,要依靠挖掘算法來找出隱藏在大量數據中的規則、模式、規律等。處理稀疏詞匯后—文本矩陣2023/9/2非結構化數據分析詞匯Doc1Doc2Doc3Doc4Doc5Doc6方法010000分析132100目標000001判斷000100數據021112算法000011挖掘000012隱藏000010利用VSM得到相似度2023/9/2非結構化數據分析上述實例文本字數較少,我們采用余弦公式計算相似度。在VSM中是把每一行作為對應詞匯的詞匯向量的,則通過計算“數據”和“分析”的相似度為0.700,“數據”和“挖掘”的相似度為0.674,“分析”和“挖掘”的相似度為0,可見在VSM中,“分析”和“挖掘”沒有任何關系的,但是,事實究竟是怎樣的呢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 汽輪機模擬與仿真技術考核試卷
- 起重機械產業鏈延伸與價值鏈提升考核試卷
- 鎳氫電池在太陽能光伏儲能中的應用考核試卷
- 西藥批發企業運營管理效率改進考核試卷
- 小學生冬季疾病預防
- Mal-Cyclohexyl-PEG3-Biotin-生命科學試劑-MCE
- 郵輪旅游市場旅游住宿報告:2025年艙位類型與旅客選擇分析
- 2025新媒體新聞傳播真實性與公信力現狀與趨勢報告
- 2025年康復醫療器械市場前景預測:需求演變與產品創新技術分析報告
- 汽車行業供應鏈風險管理與供應鏈風險管理標準化研究
- 《陸上風電場工程概算定額》NBT 31010-2019
- 上鐵運發號鐵路局常用調度命令用語附件
- 餐廚廢棄物資源化利用和無害化處理項目可行性研究報告
- SF∕T 0111-2021 法醫臨床檢驗規范
- 綠色農村人居環境整治建設宜居美麗鄉村環境整治是關鍵動態PPT模板
- 國家開放大學計算機應用基礎(本) 終結性考試試題及參考答案
- LANTEK蘭特鈑金軟件手冊(下)
- 套管開窗側鉆技術
- 砍掉成本題庫合并
- 嶺南版二年級美術下冊知識點
- 回彈模量原始記錄表格及計算
評論
0/150
提交評論