




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
掌握句法分析
深入文本進(jìn)階處理句法分析簡(jiǎn)介HanLP簡(jiǎn)介句法分析簡(jiǎn)介句法分析:句法結(jié)構(gòu)分析、語(yǔ)法分析。目的分析一句話(huà)的語(yǔ)法結(jié)構(gòu),包括詞性、句法關(guān)系等將自然語(yǔ)言句子轉(zhuǎn)換為一種形式化的結(jié)構(gòu),如語(yǔ)法樹(shù)、依存圖等基本思路句法分析簡(jiǎn)介語(yǔ)法樹(shù):用于表示句子結(jié)構(gòu)的樹(shù)形結(jié)構(gòu)。每個(gè)節(jié)點(diǎn)表示一個(gè)語(yǔ)法單位(如詞組或從句)。每個(gè)節(jié)點(diǎn)之間通過(guò)邊連接表示語(yǔ)法單位之間的句法關(guān)系。例:為中華民族崛起而讀書(shū)。句法分析簡(jiǎn)介語(yǔ)法規(guī)則&模型:無(wú)約束短語(yǔ)結(jié)構(gòu)文法(UPSG)上下文有關(guān)文法(Context-SensitiveGrammar,CSG)上下文無(wú)關(guān)文法(Context-FreeGrammar,CFG)正則文法(RegularGrammar)句法分析簡(jiǎn)介無(wú)約束短語(yǔ)結(jié)構(gòu)文法(UPSG)規(guī)則由產(chǎn)生式組成:產(chǎn)生式左側(cè)是一個(gè)非終結(jié)符;產(chǎn)生式右側(cè)是一個(gè)由終結(jié)符和非終結(jié)符組成的符號(hào)串。每個(gè)非終結(jié)符都表示一個(gè)語(yǔ)法范疇或語(yǔ)法成分。終結(jié)符則表示實(shí)際的單詞或標(biāo)點(diǎn)符號(hào)。句法分析簡(jiǎn)介無(wú)約束短語(yǔ)結(jié)構(gòu)文法(UPSG)例:以全面脫貧為重點(diǎn),脫貧攻堅(jiān),實(shí)現(xiàn)鄉(xiāng)村振興。句法分析簡(jiǎn)介句法分析應(yīng)用:機(jī)器翻譯識(shí)別源語(yǔ)言和目標(biāo)語(yǔ)言之間的語(yǔ)法結(jié)構(gòu)差異,以更準(zhǔn)確地進(jìn)行翻譯。問(wèn)答系統(tǒng)幫助理解用戶(hù)提出的問(wèn)題,并生成相應(yīng)的查詢(xún)語(yǔ)句。信息抽取識(shí)別實(shí)體、關(guān)系等信息,以更好地提取所需的信息。HanLP簡(jiǎn)介Java開(kāi)源自然語(yǔ)言處理工具包分詞詞性標(biāo)注命名實(shí)體識(shí)別依存句法分析語(yǔ)義角色標(biāo)注HanLP簡(jiǎn)介在中文NLP領(lǐng)域的應(yīng)用文本分類(lèi)情感分析機(jī)器翻譯信息抽取問(wèn)答系統(tǒng)HanLP簡(jiǎn)介特點(diǎn):高精度高效率易用性豐富的文本處理功能關(guān)鍵詞提取摘要生成繁簡(jiǎn)轉(zhuǎn)換拼音轉(zhuǎn)換HanLP簡(jiǎn)介句法分析的主要函數(shù):函數(shù)功能HanLP.parseConstituent對(duì)指定的句子進(jìn)行成分句法分析,返回一個(gè)包含成分關(guān)系的列表HanLP.parseConstituentList對(duì)指定的句子進(jìn)行成分句法分析,返回一個(gè)包含所有單詞的列表,每個(gè)單詞都包含其在句子中的位置、詞性標(biāo)注以及成分關(guān)系等信息HanLP.parseDependency對(duì)指定的句子進(jìn)行依存句法分析,返回一個(gè)包含依存關(guān)系的列表HanLP.parseDependencyList對(duì)指定的句子進(jìn)行依存句法分析,返回一個(gè)包含所有單詞的列表,每個(gè)單詞都包含其在句子中的位置、詞性標(biāo)注以及依存關(guān)系等信息HanLP.parseDependencyArray對(duì)指定的句子進(jìn)行依存句法分析,返回一個(gè)二維數(shù)組,其中每一行表示一個(gè)單詞,每列分別表示單詞的索引、單詞的內(nèi)容、詞性標(biāo)注、依存關(guān)系以及依存關(guān)系中父節(jié)點(diǎn)的索引HanLP.parseDependencyTree對(duì)指定的句子進(jìn)行依存句法分析,返回一個(gè)依存句法樹(shù),其中每個(gè)節(jié)點(diǎn)代表一個(gè)單詞,節(jié)點(diǎn)之間的連線(xiàn)代表依存關(guān)系HanLP.parseDependencyGraph對(duì)指定的句子進(jìn)行依存句法分析,返回一個(gè)依存句法圖,其中每個(gè)節(jié)點(diǎn)代表一個(gè)單詞,邊代表依存關(guān)系,節(jié)點(diǎn)屬性包括單詞的內(nèi)容、詞性標(biāo)注等信息了解文本向量化
深入文本進(jìn)階處理知識(shí)引入文本向量化將文本表示成一系列能夠表達(dá)文本語(yǔ)義的向量。在NLP中,文本向量化是一個(gè)重要環(huán)節(jié),其產(chǎn)出的向量質(zhì)量將直接影響到后續(xù)模型的表現(xiàn)。NLP知識(shí)引入NLP領(lǐng)域特性計(jì)算機(jī)任何計(jì)算的前提都是向量化,而文本難以直接被向量化。文本的向量化應(yīng)當(dāng)盡可能地包含語(yǔ)言本身的信息,但文本中存在多種語(yǔ)法規(guī)則及其他種類(lèi)的特性,導(dǎo)致向量化困難。自然語(yǔ)言本身可體現(xiàn)人類(lèi)社會(huì)深層次的關(guān)系(如諷刺等語(yǔ)義),這種關(guān)系會(huì)給向量化帶來(lái)挑戰(zhàn)。此外,在文本向量化的過(guò)程中,根據(jù)映射方法的不同,將其分為文本離散表示和文本分布式表示。在實(shí)際應(yīng)用中,可根據(jù)具體情況選擇適合的方法。知識(shí)引入文本離散表示文本分布式表示文本離散表示離散表示:基于規(guī)則和統(tǒng)計(jì)的向量化方式。特點(diǎn):忽略文本信息中的語(yǔ)序信息和語(yǔ)境信息;僅將其反映為若干維度的獨(dú)立概念。問(wèn)題:如主語(yǔ)和賓語(yǔ)的順序問(wèn)題,無(wú)法區(qū)分“我為你鼓掌”和“你為我鼓掌”。獨(dú)熱表示BOW模型TF-IDF表示獨(dú)熱表示獨(dú)熱表示用一個(gè)長(zhǎng)的向量表示一個(gè)詞。向量長(zhǎng)度為字典的大小。每個(gè)向量只有一個(gè)維度為1。其余維度全部為0。向量中維度為1的位置表示該詞語(yǔ)在字典中的位置。獨(dú)熱表示獨(dú)熱表示示例:實(shí)現(xiàn)中華民族偉大復(fù)興實(shí)現(xiàn)民族偉大團(tuán)結(jié)構(gòu)造字典:{"實(shí)現(xiàn)":1,"中華":2,"民族":3,"偉大":4,"復(fù)興":5,"團(tuán)結(jié)":6}向量化:獨(dú)熱向量表示實(shí)現(xiàn):[1,0,0,0,0,0]中華:[0,1,0,0,0,0]民族:[0,0,1,0,0,0]偉大:[0,0,0,1,0,0]復(fù)興:[0,0,0,0,1,0]團(tuán)結(jié):[0,0,0,0,0,1]獨(dú)熱表示獨(dú)熱表示優(yōu)缺點(diǎn):優(yōu)點(diǎn):操作簡(jiǎn)單缺點(diǎn):維數(shù)過(guò)大矩陣稀疏不能保留語(yǔ)義BOW模型BOW模型用一個(gè)向量表示一句話(huà)或一個(gè)文檔。忽略文檔的詞語(yǔ)順序、語(yǔ)法、句法等要素。將文檔看作若干個(gè)詞匯的集合。文檔中每個(gè)詞都是獨(dú)立的。每個(gè)維度上的數(shù)值代表ID對(duì)應(yīng)的詞在句子里出現(xiàn)的頻次。BOW模型BOW模型示例:實(shí)現(xiàn)中華民族偉大復(fù)興實(shí)現(xiàn)民族偉大團(tuán)結(jié)構(gòu)造字典:{"實(shí)現(xiàn)":1,"中華":2,"民族":3,"偉大":4,"復(fù)興":5,"團(tuán)結(jié)":6}向量化:詞庫(kù)句子向量1句子向量2實(shí)現(xiàn)11中華10民族11偉大11復(fù)興10團(tuán)結(jié)01BOW模型BOW模型缺點(diǎn):維數(shù)過(guò)大矩陣稀疏不能保留語(yǔ)義TF-IDF表示1用一個(gè)向量表示一個(gè)句話(huà)或一個(gè)文檔。2在BOW的基礎(chǔ)上對(duì)詞出現(xiàn)的頻次賦予TF-IDF權(quán)值,對(duì)BOW模型進(jìn)行修正。進(jìn)而表示該詞在文檔集合中的重要程度。3了解文本向量化
深入文本進(jìn)階處理文本離散表示文本分布式表示文本分布式表示文本分布式表示:將每個(gè)詞根據(jù)上下文從高維空間映射到一個(gè)低維度、稠密的向量。思想:詞的語(yǔ)義是通過(guò)上下文信息確定的。優(yōu)點(diǎn):考慮到了詞與詞之間存在的相似關(guān)系,減小了詞向量的維度。文本分布式表示分布式表示VS獨(dú)熱表示:形式上功能上獨(dú)熱表示的詞向量是一種稀疏詞向量,其長(zhǎng)度就是字典長(zhǎng)度。分布式表示是一種固定長(zhǎng)度的稠密詞向量。分布式表示最大的特點(diǎn)是相關(guān)或相似的詞在語(yǔ)義距離上更接近。文本分布式表示常用方法:基于矩陣的分布式表示LSA矩陣分解模型PLSA潛在語(yǔ)義分析概率模型LDA文檔生成模型基于聚類(lèi)的分布式表示基于神經(jīng)網(wǎng)絡(luò)的分布式表示W(wǎng)ord2Vec模型Doc2Vec模型Word2Vec模型Word2Vec模型:Google開(kāi)源了一款用于詞向量建模的工具、簡(jiǎn)單化的神經(jīng)網(wǎng)絡(luò)模型??梢栽诎偃f(wàn)數(shù)量級(jí)的字典和上億數(shù)量級(jí)的數(shù)據(jù)集上進(jìn)行高效的訓(xùn)練。A得到的訓(xùn)練結(jié)果可以很好地度量詞與詞之間的相似性。BWord2Vec模型Word2Vec模型特點(diǎn):在模型訓(xùn)練好后,不會(huì)使用訓(xùn)練好的模型處理新的任務(wù)。使用模型通過(guò)訓(xùn)練數(shù)據(jù)所學(xué)得的參數(shù)。Word2Vec模型Word2Vec模型訓(xùn)練流程:構(gòu)建語(yǔ)料庫(kù)創(chuàng)建詞匯表準(zhǔn)備訓(xùn)練數(shù)據(jù)訓(xùn)練模型評(píng)估模型Word2Vec模型CBOW模型輸入:某一個(gè)特定詞的上下文對(duì)應(yīng)的獨(dú)熱向量。輸出:這個(gè)特定詞的概率分布。小型語(yǔ)料庫(kù)。Skip-Gram模型輸入:一個(gè)特定詞的獨(dú)熱向量。輸出:這個(gè)特定詞的上下文的概率分布。大型語(yǔ)料庫(kù)。CBOW模型CBOW模型結(jié)構(gòu):CBOW模型將詞匯表中的所有詞都轉(zhuǎn)化為獨(dú)熱向量輸入到CBOW模型,CBOW模型由權(quán)重矩陣決定,權(quán)重矩陣的確定流程。對(duì)權(quán)重矩陣隨機(jī)值初始化權(quán)重矩陣可以通過(guò)隨機(jī)梯度下降法確定,按序訓(xùn)練樣本,計(jì)算損失函數(shù)計(jì)算這些損失函數(shù)的梯度,在梯度方向更新權(quán)重矩陣CBOW模型CBOW模型示例:建設(shè)美麗新中國(guó)Skip-Gram模型Skip-Gram模型結(jié)構(gòu):Skip-Gram模型Skip-Gram模型的輸出是一個(gè)概率分布,表示在給定中心詞匯下,每個(gè)單詞作為上下文單詞的概率。該模型同樣是由權(quán)重矩陣決定,權(quán)重矩陣的訓(xùn)練流程如下。對(duì)權(quán)重矩陣隨機(jī)值初始化通過(guò)隨機(jī)梯度下降算法確定權(quán)重矩陣,計(jì)算交叉熵?fù)p失函數(shù)計(jì)算交叉熵函數(shù)的梯度,通過(guò)反向傳播更行權(quán)重矩陣Skip-Gram模型Skip-Gram模型示例:建設(shè)美麗新中國(guó)了解文本向量化
深入文本進(jìn)階處理文本向量化:文本向量化是將文本轉(zhuǎn)換成數(shù)值向量的前置操作。文本向量化的映射方法:文本離散表示、文本分布式表示。知識(shí)引入文本離散表示文本分布式表示Doc2Vec模型Doc2Vec模型與Word2Vec模型類(lèi)似,將文本中的單詞向量化來(lái)獲取整個(gè)文本的向量表示,同時(shí)在Word2Vec模型的輸入層增加了一個(gè)與詞向量同維度的段落向量,用來(lái)表示整個(gè)文本的主題信息。獲取定長(zhǎng)的段落向量進(jìn)行用于聚類(lèi)用于分類(lèi)工作。例如,獲取到的段落向量能夠把相似度文本投影到相近的位置,通過(guò)聚類(lèi)算法能夠?qū)⑾嗨频奈谋揪垲?lèi)到一個(gè)簇。Doc2Vec模型訓(xùn)練模型:在已知的訓(xùn)練數(shù)據(jù)中得到詞向量??、各參數(shù)項(xiàng)和段落向量或句子向量??。01
02Doc2Vec模型的實(shí)現(xiàn)。Doc2Vec模型比較Doc2Vec與Word2Vec模型。特點(diǎn)DM(Doc2Vec)DBOW(Doc2Vec)CBOW(Word2Vec)Skip-gram(Word2Vec)目標(biāo)預(yù)測(cè)上下文詞匯預(yù)測(cè)隨機(jī)詞匯預(yù)測(cè)上下文詞匯預(yù)測(cè)隨機(jī)詞匯輸入層文檔+詞向量文檔向量詞向量詞向量輸出層預(yù)測(cè)的上下文詞匯預(yù)測(cè)的隨機(jī)詞匯預(yù)測(cè)的中心詞匯預(yù)測(cè)的上下文詞匯訓(xùn)練側(cè)重局部語(yǔ)義結(jié)構(gòu)整體語(yǔ)義信息局部語(yǔ)義結(jié)構(gòu)整體語(yǔ)義信息學(xué)習(xí)內(nèi)容文檔+詞向量文檔向量詞向量詞向量應(yīng)用場(chǎng)景文檔表示文檔表示詞表示詞表示DM類(lèi)似于CBOW,DBOW類(lèi)似于Skip-gram。區(qū)別在于Doc2Vec用于學(xué)習(xí)文檔向量,而Word2Vec用于學(xué)習(xí)詞向量。輸入層輸出層隱藏層Doc2Vec模型DM模型在給定上下文以及相應(yīng)段落的前提下,試圖預(yù)測(cè)目標(biāo)詞出現(xiàn)的概率。DM模型的網(wǎng)絡(luò)結(jié)構(gòu)。1
2
3
4輸出層過(guò)softmax函數(shù)計(jì)算輸出層的神經(jīng)元輸出值。1、DM模型輸出值Doc2Vec模型DM模型具體流程。段落ID通過(guò)矩陣??映射成段落向量。01
02將段落向量和詞向量平均后得到的向量或按順序拼接后得到的向量輸入分類(lèi)器Softmax層。03例:深入學(xué)習(xí)宣傳貫徹黨的二十大精神。使用窗口大小為2的DM模型。Doc2Vec模型上下文目標(biāo)詞(深入,學(xué)習(xí),宣傳)貫徹(學(xué)習(xí),宣傳,貫徹)黨(宣傳,貫徹,黨)的(貫徹,黨,的)二十大(黨,的,二十大)精神選擇第一組上下文與目標(biāo)詞是:(深入,學(xué)習(xí),宣傳)和貫徹選擇二組上下文和目標(biāo)詞是:(學(xué)習(xí),宣傳,貫徹)和黨以此類(lèi)推,最終得到上下文及其對(duì)應(yīng)目標(biāo)詞Doc2Vec模型DBOW模型通過(guò)輸入段落向量,忽略輸入的上下文,預(yù)測(cè)段落中隨機(jī)詞的概率分布。DBOW模型的網(wǎng)絡(luò)結(jié)構(gòu)。1輸入層僅含1個(gè)段落單元。2輸出層是一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)層。3
4輸出層通過(guò)softmax函數(shù)預(yù)測(cè)目標(biāo)詞的概率向量。輸出層隱藏層輸入層2、DBOW模型輸出值輸出值輸出層隱藏層輸入層Doc2Vec模型DBOW模型具體流程。段落ID通過(guò)矩陣??映射成段落向量。01隨機(jī)選擇文檔中的一個(gè)詞,映射到向量空間。02將段落向量輸入分類(lèi)器Softmax層,預(yù)測(cè)文檔中隨機(jī)選擇的詞。03例:深入學(xué)習(xí)宣傳貫徹黨的二十大精神。
使用DBOW模型。Doc2Vec模型文檔ID目標(biāo)詞Doc1深入Doc1學(xué)習(xí)Doc1宣傳Doc1貫徹Doc1黨Doc1的Doc1二十大Doc1精神Doc1
文檔將句子分割成單詞:深入、學(xué)習(xí)、宣傳、貫徹、黨、的、二十大、精神將文檔ID與句子中的每個(gè)詞作為目標(biāo)詞配對(duì)預(yù)測(cè)文檔中的目標(biāo)詞掌握文本相似度計(jì)算
深入文本進(jìn)階處理知識(shí)引入文本相似度:A和B的共性信息描述A和B的全部信息知識(shí)引入相似度與語(yǔ)義距離:調(diào)節(jié)因子保證當(dāng)語(yǔ)義距離為0時(shí)具有意義之間的非負(fù)語(yǔ)義距離歐式距離曼哈頓距離編輯距離杰卡德距離余弦相似度哈羅距離歐式距離歐式距離:例:計(jì)算“產(chǎn)品經(jīng)理”和“產(chǎn)品經(jīng)理是什么”之間的歐氏距離設(shè)置文本向量設(shè)置文本向量規(guī)定
算得歐式距離適用:文本編碼檢測(cè)。移位/錯(cuò)字
這是一篇文本相似度的文章
這是一篇文本相似度文章位置/距離
我的名字是孫行者
孫行者是我的名字曼哈頓距離曼哈頓距離:應(yīng)用場(chǎng)景與歐式距離類(lèi)似。編輯距離編輯距離:萊文斯坦(Levenshtein)距離將文本A編輯成文本B需要的最少變動(dòng)次數(shù)。每次只能增加、刪除或修改一個(gè)字。對(duì)稱(chēng)性椰子→椰子樹(shù):椰子+樹(shù)→椰子樹(shù)
編輯距離=1
椰子樹(shù)→椰子:椰子樹(shù)-樹(shù)→椰子
編輯距離=1編輯距離編輯距離與文本順序有關(guān)。例:椰子、子椰的編輯距離=2“椰子”→
刪除“子”→“椰”→增加“子”→“子椰”?!耙印薄?/p>
刪除“椰”→“子”→增加“椰”→“子椰”?!耙印薄白印弊儭耙薄耙薄耙弊儭白印薄白右?。“椰子”→“椰”變“子”→“子子”→“子”變“椰”→“子椰”。編輯距離若文本的編輯距離小,則文本相似度高。雖然漏判高相似度的文本,但是可確保通過(guò)編輯距離篩選的文本相似度一定很高。漏判情況:批發(fā)零售、零售批發(fā)。杰卡德距離杰卡德相似度:杰卡德距離:計(jì)算“目不轉(zhuǎn)睛”和“目不暇接”的Jaccard相似度交集:{目,不}并集:{目,不,轉(zhuǎn),睛,暇,接}Jaccard相似度杰卡德距離適用于對(duì)字/詞順序不敏感的文本判斷論文相似度。不適用于重復(fù)字符較多的文本這是是是是是是一個(gè)文本。這是一個(gè)文文文文文文本。不適用于對(duì)文字順序敏感的場(chǎng)景一九三八年。一八三九年。余弦相似度余弦相似度:例:一把雨傘、下雨了開(kāi)把傘并集:{一,把,雨,傘,下,了,開(kāi)}并集中的第1個(gè)字在文本一中出現(xiàn)了n次,則得余弦相似度性質(zhì):與文本的交集高度相關(guān)??紤]到文本的頻次這是是是是是是一個(gè)文本。這是一個(gè)文文文文文文本。余弦相似度:39%。余弦相似度不太適用:向量之間方向相同但大小不同的情況。太棒了:向量(1,1,1)太棒了太棒了太棒了:向量(3,3,3)相似度100%哈羅距離哈羅距離:對(duì)兩個(gè)字符串的相似度進(jìn)行衡量,以得出兩個(gè)字符串的相似程度。m:兩個(gè)字符串中相互匹配的字符數(shù)量。
和
:兩個(gè)字符串的長(zhǎng)度(字符數(shù)量)。t:換位數(shù)量。哈羅距離適用:用于對(duì)位置、順序敏感的文本??紤]文本位置偏移、順序變換的影響。既不希望位置或順序變了相似度卻保持不變。又不希望直接“一刀切”將相似度變?yōu)?。項(xiàng)目任務(wù)深入文本進(jìn)階處理Word2Vec詞向量的訓(xùn)練論文文本相似度計(jì)算文本依存句法分析垃圾短信分類(lèi)游客目的地聚類(lèi)分析基于LSTM實(shí)現(xiàn)情感分析Word2Vec詞向量的訓(xùn)練使用從某網(wǎng)站中爬取到的新聞數(shù)據(jù),包含的特征為新聞內(nèi)容和新聞?lì)悇e。新聞內(nèi)容新聞?lì)悇e昨天下午,廣州市政府常務(wù)會(huì)議審議通過(guò)《廣州市綜合交通發(fā)展第十三個(gè)五年規(guī)劃》?!笆糜巫蛱扉_(kāi)始進(jìn)入“黃金周”旅游昨天,微博博主“小5啊”發(fā)起了一個(gè)征集——教育昨日,省教育考試院發(fā)布了《關(guān)于廣東省2016年普通高等學(xué)校招生專(zhuān)業(yè)目錄更正及增補(bǔ)的通……教育最新消息:喜大普奔!國(guó)務(wù)院日前批復(fù)同意將惠州市列為國(guó)家歷史文化名城啦!繼廣州、潮州……旅游……Word2Vec詞向量的訓(xùn)練對(duì)Word2Vec模型進(jìn)行訓(xùn)練的基本流程。1讀取文本數(shù)據(jù)2對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理3使用Word2Vec模型輸出Word2Vec詞向量的訓(xùn)練使用到gensim.models中的Word2Vec函數(shù)訓(xùn)練詞向量。參數(shù)名稱(chēng)參數(shù)說(shuō)明sentences接收l(shuí)ist,表示訓(xùn)練模型的文本數(shù)據(jù)。無(wú)默認(rèn)值sg接收int,表示訓(xùn)練算法的選擇,0表示使用CBOW算法,1表示使用Skip-Gram算法。默認(rèn)為0size接收int,表示詞向量的維度,較大的size值可以提高模型的準(zhǔn)確性,但也可能導(dǎo)致更長(zhǎng)的訓(xùn)練時(shí)間和更多的內(nèi)存占用。默認(rèn)為100window接收int,表示上下文窗口大小,即在訓(xùn)練過(guò)程中,一個(gè)詞與其前后多少個(gè)詞共同出現(xiàn)的次數(shù)會(huì)被考慮,較大的窗口值可以捕捉到更遠(yuǎn)的詞匯關(guān)系。默認(rèn)為5min_count接收int,表示詞頻閾值,小于該值的單詞將被丟棄。默認(rèn)為5workers接收int,表示并行計(jì)算時(shí)的線(xiàn)程數(shù)。默認(rèn)為3Word2Vec詞向量的訓(xùn)練論文文本相似度計(jì)算文本依存句法分析垃圾短信分類(lèi)游客目的地聚類(lèi)分析基于LSTM實(shí)現(xiàn)情感分析論文文本相似度計(jì)算基于文本相似度計(jì)算的方法,用于比較兩篇中文論文之間的相似度。計(jì)算相似度04文本向量化03中文分詞02從PDF中提取文本01Word2Vec詞向量的訓(xùn)練論文文本相似度計(jì)算文本依存句法分析垃圾短信分類(lèi)游客目的地聚類(lèi)分析基于LSTM實(shí)現(xiàn)情感分析文本依存句法分析基本流程Word2Vec詞向量的訓(xùn)練論文文本相似度計(jì)算文本依存句法分析垃圾短信分類(lèi)游客目的地聚類(lèi)分析基于LSTM實(shí)現(xiàn)情感分析垃圾短信分類(lèi)基本流程1數(shù)據(jù)預(yù)處理2特征工程3模型訓(xùn)練4模型評(píng)估數(shù)據(jù)預(yù)處理需要經(jīng)過(guò)加載停用詞表、加載數(shù)據(jù)集、中文分詞和去除停用詞的步驟。特征工程需要經(jīng)過(guò)初始化TF-IDF向量化器、對(duì)文本數(shù)據(jù)進(jìn)行向量化處理、獲取文本標(biāo)簽的步驟,從中提取出最能代表數(shù)據(jù)特征的信息。數(shù)據(jù)預(yù)處理、特征工程模型訓(xùn)練MultinomialNB函數(shù)的常用參數(shù)說(shuō)明參數(shù)名稱(chēng)參數(shù)說(shuō)明alpha接收f(shuō)loat,表示平滑參數(shù),用于避免概率為0的情況,通常取值在0~1之間。默認(rèn)為1.0fit_prior接收bool,表示是否學(xué)習(xí)類(lèi)的先驗(yàn)概率。默認(rèn)為T(mén)rueclass_prior接收numpy數(shù)組,表示類(lèi)的先驗(yàn)概率,若指定,則不根據(jù)數(shù)據(jù)自動(dòng)計(jì)算先驗(yàn)概率。默認(rèn)為None模型評(píng)估accuracy_score函數(shù)的常用參數(shù)說(shuō)明參數(shù)名稱(chēng)參數(shù)說(shuō)明y_pred接收numpy數(shù)組,表示分類(lèi)模型的預(yù)測(cè)結(jié)果。無(wú)默認(rèn)值y_true接收numpy數(shù)組,表示分類(lèi)的真實(shí)標(biāo)簽。無(wú)默認(rèn)值熟悉文本分類(lèi)與聚類(lèi)
深入文本進(jìn)階處理文本挖掘簡(jiǎn)介文本分類(lèi)與聚類(lèi)的步驟用戶(hù)可獲得的信息包含技術(shù)資料、商業(yè)信息、新聞報(bào)道、娛樂(lè)資訊等,可構(gòu)成一個(gè)異常龐大的具有異構(gòu)性、開(kāi)放性等特性的分布式數(shù)據(jù)庫(kù)。結(jié)合人工智能研究領(lǐng)域中的NLP技術(shù),從數(shù)據(jù)挖掘中派生出了文本挖掘這個(gè)新興的數(shù)據(jù)挖掘研究領(lǐng)域。文本挖掘簡(jiǎn)介文本挖掘概念文本分類(lèi)常用算法文本聚類(lèi)常用算法文本挖掘概念定義:抽取有效、新穎、有用、可理解的、散布在文本中的有價(jià)值知識(shí),并利用相關(guān)知識(shí)更好地組織信息;從非結(jié)構(gòu)化文本信息中獲取用戶(hù)感興趣或有用模式的過(guò)程。分類(lèi):文本信息抽取、文本分類(lèi)、文本聚類(lèi)、摘要抽取、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理。文本挖掘概念文本挖掘流程文本收集——文本分析——特征修剪文本挖掘概念文本挖掘技術(shù)——文本分類(lèi)將帶有類(lèi)別的文本集合按照每一類(lèi)的文本子集合共有的特性,歸納出分類(lèi)模型按照該模型將其他文檔遷移到已有類(lèi)中,最終實(shí)現(xiàn)文本的自動(dòng)分類(lèi)可以方便用戶(hù)查找信息縮小查找文本的范圍文本挖掘概念文本挖掘技術(shù)——文本聚類(lèi)文本聚類(lèi)將文本集合分為若干個(gè)簇。要求同簇內(nèi)的文本相似度盡量高,而不同簇的文本相似度盡量低。例:根據(jù)用戶(hù)瀏覽信息保留與用戶(hù)瀏覽內(nèi)容相關(guān)的簇,提高瀏覽文本效率。文本挖掘概念文本挖掘技術(shù)——摘要抽取計(jì)算機(jī)能夠自動(dòng)地從原始文檔中提取出能夠準(zhǔn)確地反映該文檔中心內(nèi)容的簡(jiǎn)單連貫的短文。生成簡(jiǎn)短的關(guān)于文檔內(nèi)容的指示性信息,將文檔的主要內(nèi)容呈現(xiàn)給用戶(hù)。以便用戶(hù)決定是否要閱讀文檔的原文,節(jié)省用戶(hù)的瀏覽時(shí)間。文本分類(lèi)常用算法文本分類(lèi)目的:將一段文本分類(lèi)到預(yù)定義的類(lèi)別中。作用:對(duì)文本進(jìn)行自動(dòng)分類(lèi)和標(biāo)注。應(yīng)用:信息過(guò)濾、垃圾郵件識(shí)別、情感分析、新聞分類(lèi)、媒體監(jiān)測(cè)。文本分類(lèi)常用算法文本分類(lèi)方法基于知識(shí)工程的分類(lèi)方法:通過(guò)專(zhuān)家經(jīng)驗(yàn),依靠人工提取規(guī)則進(jìn)行分類(lèi)?;跈C(jī)器學(xué)習(xí)的分類(lèi)方法:通過(guò)計(jì)算機(jī)自主學(xué)習(xí)、提取規(guī)則進(jìn)行分類(lèi)。樸素貝葉斯算法K近鄰算法支持向量機(jī)算法神經(jīng)網(wǎng)絡(luò)算法決策樹(shù)算法樸素貝葉斯算法樸素貝葉斯(NaiveBayes)算法是一種基于貝葉斯定理的簡(jiǎn)單概率分類(lèi)器。假設(shè):特征之間是條件獨(dú)立的。優(yōu)點(diǎn):簡(jiǎn)單、易于實(shí)現(xiàn)。缺點(diǎn):當(dāng)特征之間存在依賴(lài)關(guān)系的情況下導(dǎo)致性能下降。樸素貝葉斯算法樸素貝葉斯算法:計(jì)算每個(gè)類(lèi)別的先驗(yàn)概率。針對(duì)每個(gè)特征,計(jì)算每個(gè)類(lèi)別下的條件概率。當(dāng)有一個(gè)新的輸入樣本時(shí),算法利用貝葉斯定理計(jì)算后驗(yàn)概率。選擇具有最大后驗(yàn)概率的類(lèi)別作為輸入樣本的預(yù)測(cè)類(lèi)別。樸素貝葉斯算法樸素貝葉斯算法示例:存在新聞分類(lèi)訓(xùn)練數(shù)據(jù),其中,判斷新文章“NBA電影”是體育新聞還是娛樂(lè)新聞。類(lèi)別文本體育新聞籃球NBA比賽娛樂(lè)新聞電影院線(xiàn)上映體育新聞足球聯(lián)賽勝利娛樂(lè)新聞歌手音樂(lè)會(huì)演唱體育新聞籃球NBA電影娛樂(lè)新聞電影院線(xiàn)NBA樸素貝葉斯算法計(jì)算每個(gè)類(lèi)別的先驗(yàn)概率。使用拉普拉斯平滑計(jì)算每個(gè)特征的條件概率。樸素貝葉斯算法使用貝葉斯定理計(jì)算新文章屬于體育新聞和娛樂(lè)新聞的后驗(yàn)概率。在NBA電影中,屬于體育新聞和娛樂(lè)新聞的后驗(yàn)概率相等,可以根據(jù)實(shí)際需求選擇一個(gè)類(lèi)別。支持向量機(jī)算法支持向量機(jī)算法核心思想:尋找一個(gè)超平面(或在高維空間中的超曲面);將不同類(lèi)別的數(shù)據(jù)最大程度地分開(kāi)。支持向量機(jī)算法支持向量機(jī)算法示例:判斷文章是關(guān)于科技(類(lèi)別1)還是藝術(shù)(類(lèi)別2)類(lèi)別關(guān)鍵詞1關(guān)鍵詞2類(lèi)別171類(lèi)別162類(lèi)別226類(lèi)別238………神經(jīng)網(wǎng)絡(luò)算法神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu):神經(jīng)網(wǎng)絡(luò)算法神經(jīng)網(wǎng)絡(luò)算法步驟:對(duì)文章進(jìn)行預(yù)處理,將文本轉(zhuǎn)換為詞向量表示1其初始化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和權(quán)重2將文章的詞向量作為輸入,計(jì)算每個(gè)神經(jīng)元的加權(quán)和3應(yīng)用激活函數(shù)得到輸出。輸出層的輸出是一個(gè)概率分布,表示文章屬于各個(gè)類(lèi)別的概率4決策樹(shù)算法決策樹(shù)算法結(jié)構(gòu)示意:決策樹(shù)算法決策樹(shù)算法步驟:根據(jù)關(guān)鍵詞“科技”的出現(xiàn)頻率分割數(shù)據(jù)集1在子節(jié)點(diǎn)上根據(jù)關(guān)鍵詞“旅游”的出現(xiàn)頻率繼續(xù)分割數(shù)據(jù)集2達(dá)到的葉節(jié)點(diǎn)為每個(gè)子集分配類(lèi)別標(biāo)簽3K近鄰算法K近鄰算法核心思想對(duì)于一個(gè)新的輸入樣本,KNN會(huì)在訓(xùn)練數(shù)據(jù)集中找到與其最接近的K個(gè)鄰居,根據(jù)鄰居的標(biāo)簽進(jìn)行投票,選擇出現(xiàn)次數(shù)最多的類(lèi)別(分類(lèi)任務(wù))或計(jì)算平均值(回歸任務(wù))作為新樣本的預(yù)測(cè)結(jié)果。K近鄰算法K近鄰算法示例:將文章分為體育和娛樂(lè)兩類(lèi)對(duì)于一個(gè)新的輸入數(shù)據(jù)點(diǎn),計(jì)算其與其他數(shù)據(jù)點(diǎn)的距離,找到K個(gè)最近鄰居。熟悉文本分類(lèi)與聚類(lèi)
深入文本進(jìn)階處理文本挖掘簡(jiǎn)介文本分類(lèi)與聚類(lèi)的步驟用戶(hù)可獲得的信息包含技術(shù)資料、商業(yè)信息、新聞報(bào)道、娛樂(lè)資訊等,可構(gòu)成一個(gè)異常龐大的具有異構(gòu)性、開(kāi)放性等特性的分布式數(shù)據(jù)庫(kù)。結(jié)合人工智能研究領(lǐng)域中的NLP技術(shù),從數(shù)據(jù)挖掘中派生出了文本挖掘這個(gè)新興的數(shù)據(jù)挖掘研究領(lǐng)域。文本挖掘簡(jiǎn)介文本挖掘概念文本分類(lèi)常用算法文本聚類(lèi)常用算法文本聚類(lèi)常用算法文本聚類(lèi)思想:對(duì)無(wú)類(lèi)別標(biāo)識(shí)的文本集合進(jìn)行分析。實(shí)質(zhì):就是將相似度高的樣本聚為一類(lèi),并且期望同類(lèi)樣本之間的相似度盡可能高,不同類(lèi)別之間的樣本相似度盡可能低。聚類(lèi)算法基于劃分的聚類(lèi)算法基于層次的聚類(lèi)算法基于密度的聚類(lèi)算法基于模型的聚類(lèi)算法文本聚類(lèi)常用算法基于劃分的聚類(lèi)算法基于劃分的聚類(lèi)算法思想:給定一個(gè)有n個(gè)記錄的數(shù)據(jù)集,將數(shù)據(jù)集劃分為K個(gè)分組,每一個(gè)分組稱(chēng)為一個(gè)簇。對(duì)于給定的K個(gè)分組,同一個(gè)分組內(nèi)的數(shù)據(jù)記錄距離越近越好,不同分組之間的距離則越遠(yuǎn)越好。方法:K-Means、Single-Pass增量聚類(lèi)算法、K-Medoids和CLARANS基于隨機(jī)選擇的聚類(lèi)算法(ClusteringAlgorithmbasedonRandomizedSearch,CLARANS)。基于劃分的聚類(lèi)算法基于劃分的聚類(lèi)算法——K-Means優(yōu)化目標(biāo):基于劃分的聚類(lèi)算法基于劃分的聚類(lèi)算法——K-Means輸入樣本集合及聚類(lèi)簇?cái)?shù)。從樣本集中隨機(jī)選擇k個(gè)樣本點(diǎn)作為k個(gè)簇中心。計(jì)算每個(gè)樣本點(diǎn)到每個(gè)簇中心的距離。按照距離遠(yuǎn)近將每個(gè)樣本點(diǎn)歸入相應(yīng)的簇內(nèi)。更新每個(gè)簇的中心。重復(fù)步驟2~5,直至簇中心不再變化。輸出聚類(lèi)結(jié)果?;趯哟蔚木垲?lèi)算法基于層次的聚類(lèi)算法思想:將樣本集合合并成凝聚度更高或分裂成更細(xì)致的子樣本集合,最終樣本集合形成一棵層次樹(shù)。方法:變色龍算法、嵌套層次聚類(lèi)算法(AgglomerativeNesting,AGNES)、基于代表的聚類(lèi)算法(ClusteringUsingRepresentatives,CURE)。基于層次的聚類(lèi)算法基于層次的聚類(lèi)算法基本過(guò)程:基于層次的聚類(lèi)算法基于層次的聚類(lèi)算法輸入樣本集合、對(duì)聚類(lèi)簇函數(shù)做出規(guī)定,給出聚類(lèi)的簇?cái)?shù)。將每個(gè)樣本點(diǎn)作為單獨(dú)的一簇。計(jì)算任何兩個(gè)簇之間的距離。按照距離最近原則合并簇。若當(dāng)前聚類(lèi)簇?cái)?shù)未到達(dá)規(guī)定的聚類(lèi)簇?cái)?shù),則返回步驟3,否則聚類(lèi)結(jié)束。輸出聚類(lèi)結(jié)果?;诿芏鹊木垲?lèi)算法基于密度的聚類(lèi)算法思想:找出密度較高的樣本點(diǎn),再將周?chē)嘟拿芏容^高的樣本點(diǎn)連成一片,最后形成各類(lèi)簇。方法:具有噪聲的基于密度的聚類(lèi)(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)、基于排序點(diǎn)識(shí)別的聚類(lèi)結(jié)構(gòu)(OrderingPointstoIdentifytheClustering,OPTICS)?;诿芏鹊木垲?lèi)算法基于密度的聚類(lèi)算法——DBSCAN:基于密度的聚類(lèi)算法基于密度的聚類(lèi)算法——DBSCAN輸入樣本集合、初始化距離參數(shù),數(shù)目參數(shù)MinPts。確定核心對(duì)象集合。在核心對(duì)象集合中,隨機(jī)選擇一個(gè)核心對(duì)象作為種子。依據(jù)簇劃分原則生成一個(gè)簇,并更新核心對(duì)象集合。若核心對(duì)象集合為空,則算法結(jié)束,否則返回步驟3。輸出聚類(lèi)結(jié)果?;谀P偷木垲?lèi)算法基于模型的聚類(lèi)算法思想:假設(shè)每個(gè)類(lèi)為一個(gè)模型,尋找與該模型擬合最好的數(shù)據(jù)。方法:基于概率(概率生成模型):高斯混合模型(GaussianMixtureModels,GMM)基于神經(jīng)網(wǎng)絡(luò)基于模型的聚類(lèi)算法基于模型的聚類(lèi)算法——GMM:基于模型的聚類(lèi)算法基于模型的聚類(lèi)算法——GMM假設(shè)空間概率分布由k個(gè)高斯分布混合組成,初始化高斯分布,即初始化混合系數(shù)、均值和方差。計(jì)算各混合生成的后驗(yàn)概率。通過(guò)EM算法計(jì)算參數(shù)更新。重復(fù)2、3步驟,直到滿(mǎn)足停止條件。將樣本按照最大化劃入相應(yīng)的簇中,最終得到k個(gè)聚類(lèi)。文本分類(lèi)與聚類(lèi)的步驟文本分類(lèi)與聚類(lèi)的步驟:數(shù)據(jù)準(zhǔn)備:文本數(shù)據(jù)一般是非結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)或多或少會(huì)存在數(shù)據(jù)缺失、數(shù)據(jù)異常、數(shù)據(jù)格式不規(guī)范等情況,這時(shí)需要對(duì)其進(jìn)行預(yù)處理數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)標(biāo)準(zhǔn)化、缺失值和異常值處理等,貫徹高質(zhì)量發(fā)展精神文本分類(lèi)與聚類(lèi)的步驟文本分類(lèi)與聚類(lèi)的步驟:特征提?。築OW模型:擁有過(guò)大的特征維數(shù),數(shù)據(jù)過(guò)于稀疏TF、TF-IDF:運(yùn)用統(tǒng)計(jì)的方法,將詞匯的統(tǒng)計(jì)特征作為特征集,但效果與BOW模型相差不大n-gramWord2Vec文本分類(lèi)與聚類(lèi)的步驟文本分類(lèi)與聚類(lèi)的步驟:模型選擇與訓(xùn)練:對(duì)處理好的數(shù)據(jù)進(jìn)行分析,選擇適合用于訓(xùn)練的模型判斷數(shù)據(jù)中是否存在類(lèi)標(biāo)簽有:歸為監(jiān)督學(xué)習(xí)問(wèn)題無(wú):劃分為無(wú)監(jiān)督學(xué)習(xí)問(wèn)題文本分類(lèi)與聚類(lèi)的步驟文本分類(lèi)與聚類(lèi)的步驟:模型測(cè)試:通過(guò)測(cè)試數(shù)據(jù)可以對(duì)模型進(jìn)行驗(yàn)證,分析產(chǎn)生誤差的原因數(shù)據(jù)來(lái)源、特征、算法等尋找在測(cè)試數(shù)據(jù)中的錯(cuò)誤樣本,發(fā)現(xiàn)特征或規(guī)律,從而找到提升算法性能、減少誤差的方法文本分類(lèi)與聚類(lèi)的步驟文本分類(lèi)與聚類(lèi)的步驟:模型融合:提升算法準(zhǔn)確率同時(shí)訓(xùn)練多個(gè)模型,綜合考慮不同模型的結(jié)果,再根據(jù)一定的方法集成模型,以得到更好的結(jié)果基于SVM實(shí)現(xiàn)新聞文本分類(lèi)爬取并分析新聞文本數(shù)據(jù)預(yù)處理新聞文本數(shù)據(jù)構(gòu)建SVM模型模型評(píng)價(jià)模型預(yù)測(cè)爬取并分析新聞文本數(shù)據(jù)
選取人民網(wǎng)教育類(lèi)別的9個(gè)欄目(滾動(dòng)、原創(chuàng)、留學(xué)、嬰幼兒、中小學(xué)、大學(xué)、職業(yè)教育)下的部分新聞數(shù)據(jù)。
數(shù)據(jù)遍布的時(shí)間為2019年7月8日-2021年2月25日共1284條發(fā)布的新聞數(shù)據(jù)。爬取并分析新聞文本數(shù)據(jù)新聞數(shù)據(jù)爬取并分析流程:數(shù)據(jù)爬取爬取目標(biāo):通過(guò)網(wǎng)址首頁(yè),進(jìn)入對(duì)應(yīng)欄目的新聞總覽網(wǎng)頁(yè),再通過(guò)新聞總覽網(wǎng)頁(yè)的不同新聞鏈接,進(jìn)入具體的新聞內(nèi)容界面,提取具體新聞的內(nèi)容信息。爬取步驟:查看網(wǎng)絡(luò)結(jié)構(gòu)及網(wǎng)頁(yè)內(nèi)容;對(duì)各個(gè)子欄目進(jìn)行爬??;提取新聞內(nèi)容并保存。數(shù)據(jù)爬取查看網(wǎng)絡(luò)結(jié)構(gòu)及網(wǎng)頁(yè)內(nèi)容(網(wǎng)站層級(jí)結(jié)構(gòu)):數(shù)據(jù)爬取查看網(wǎng)絡(luò)結(jié)構(gòu)及網(wǎng)頁(yè)內(nèi)容(定位欄目位置):數(shù)據(jù)爬取查看網(wǎng)絡(luò)結(jié)構(gòu)及網(wǎng)頁(yè)內(nèi)容(定位具體新聞鏈接):數(shù)據(jù)爬取查看網(wǎng)絡(luò)結(jié)構(gòu)及網(wǎng)頁(yè)內(nèi)容(定位具體網(wǎng)頁(yè)):數(shù)據(jù)爬取對(duì)各個(gè)子欄目進(jìn)行爬?。ńY(jié)果):數(shù)據(jù)爬取提取新聞內(nèi)容并保存:教育新聞數(shù)據(jù).xlsx文件字段說(shuō)明。字段名稱(chēng)說(shuō)明欄目名稱(chēng)新聞所歸屬的欄目新聞標(biāo)題發(fā)布的新聞的標(biāo)題發(fā)布時(shí)間新聞發(fā)布的時(shí)間鏈接詳情對(duì)應(yīng)的新聞內(nèi)容鏈接新聞內(nèi)容新聞的內(nèi)容數(shù)據(jù)爬取提取新聞內(nèi)容并保存:教育新聞數(shù)據(jù).xlsx文件示例。數(shù)據(jù)清洗數(shù)據(jù)清洗:通過(guò)網(wǎng)址首頁(yè),進(jìn)入對(duì)應(yīng)欄目的新聞總覽網(wǎng)頁(yè),再通過(guò)新聞總覽網(wǎng)頁(yè)的不同新聞鏈接,進(jìn)入具體的新聞內(nèi)容界面,提取具體新聞的內(nèi)容信息。爬取步驟:數(shù)據(jù)清洗,包括重復(fù)值、缺失值和干擾內(nèi)容(轉(zhuǎn)義符)等處理;刪除清洗后數(shù)據(jù)量太少的欄目(思政,高考)。數(shù)據(jù)清洗數(shù)據(jù)清洗(結(jié)果):清洗前的數(shù)據(jù)量為1284條,清洗后的數(shù)據(jù)量為1262條,數(shù)據(jù)一共刪除了22條可視化展示對(duì)清洗后的數(shù)據(jù)進(jìn)行可視化分析各欄目新聞總發(fā)布量各欄目各月份新聞發(fā)布數(shù)量各欄目新聞總發(fā)布量從圖可以看出,留學(xué)欄目的新聞發(fā)布數(shù)量最多,為208個(gè),其次是嬰幼兒、滾動(dòng)、原創(chuàng)等欄目,而大學(xué)欄目的新聞發(fā)布數(shù)量最少,為131個(gè)。各欄目各月份新聞發(fā)布數(shù)量從圖可以看出,原創(chuàng)欄目的發(fā)布數(shù)量呈上下波動(dòng),數(shù)量范圍為0~80之間;而滾動(dòng)欄目的發(fā)布數(shù)量將近200條,且時(shí)長(zhǎng)僅有一個(gè)月。各欄目各月份新聞發(fā)布數(shù)量從圖可以看出,嬰幼兒、留學(xué)、職業(yè)教育、中小學(xué)和大學(xué)欄目的新聞發(fā)布數(shù)量波動(dòng)較大的時(shí)間點(diǎn)分別位于2019年8月、2020年9月、2020年1月、2021年1月和2021年1月?;赟VM實(shí)現(xiàn)新聞文本分類(lèi)爬取并分析新聞文本數(shù)據(jù)預(yù)處理新聞文本數(shù)據(jù)構(gòu)建SVM模型模型評(píng)價(jià)模型預(yù)測(cè)預(yù)處理新
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 在線(xiàn)教育平臺(tái)如何影響全球教育資源配置
- 個(gè)性化教育策略的設(shè)計(jì)與實(shí)踐
- 教育技術(shù)的新發(fā)展重塑學(xué)習(xí)環(huán)境
- 從智能到智慧-教育技術(shù)中個(gè)性化和智能化的平衡發(fā)展
- 商業(yè)視角下的教育大數(shù)據(jù)應(yīng)用
- 醫(yī)療行業(yè)的教育新篇章超說(shuō)明書(shū)用藥的翻轉(zhuǎn)課堂研究
- 2024-2025學(xué)年度河南林業(yè)職業(yè)學(xué)院?jiǎn)握小堵殬I(yè)適應(yīng)性測(cè)試》??键c(diǎn)試卷(名師系列)附答案詳解
- 雙11商超活動(dòng)策劃方案
- 幼兒園安全教育教案設(shè)計(jì)
- 護(hù)士培訓(xùn)心得體會(huì)
- 2024年青海省中考生物地理合卷試題(含答案解析)
- 福建省旋挖成孔灌注樁技術(shù)規(guī)程
- 2023-2024學(xué)年譯林版八年級(jí)英語(yǔ)下冊(cè)期末易錯(cuò)120題(江蘇專(zhuān)用)(含答案解析)
- G -B- 17378.7-2007 海洋監(jiān)測(cè)規(guī)范 第7部分 近海污染生態(tài)調(diào)查和生物監(jiān)測(cè)(正式版)
- (高清版)JTST 325-2024 水下深層水泥攪拌樁法施工質(zhì)量控制與檢驗(yàn)標(biāo)準(zhǔn)
- 茂名高州市村(社區(qū))后備干部招聘筆試真題2023
- 西南科技大學(xué)-2019級(jí)-下-工學(xué)類(lèi)-電路分析A2-畢業(yè)生補(bǔ)考-試卷
- 滬教版數(shù)學(xué)五年級(jí)下冊(cè)小數(shù)簡(jiǎn)便運(yùn)算練習(xí)100題及答案
- 肺結(jié)核防治知識(shí)課件
- 健康中國(guó)戰(zhàn)略實(shí)施
- 中學(xué)音樂(lè)學(xué)科融合課程設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論