自然語(yǔ)言處理之文本熱詞提取(含有《源碼》和《數(shù)據(jù)》)_第1頁(yè)
自然語(yǔ)言處理之文本熱詞提取(含有《源碼》和《數(shù)據(jù)》)_第2頁(yè)
自然語(yǔ)言處理之文本熱詞提取(含有《源碼》和《數(shù)據(jù)》)_第3頁(yè)
自然語(yǔ)言處理之文本熱詞提取(含有《源碼》和《數(shù)據(jù)》)_第4頁(yè)
自然語(yǔ)言處理之文本熱詞提取(含有《源碼》和《數(shù)據(jù)》)_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第自然語(yǔ)言處理之文本熱詞提取(含有《源碼》和《數(shù)據(jù)》)目錄代碼數(shù)據(jù)結(jié)果:主要就是通過(guò)jieba的posseg模塊將一段文字分段并賦予不同字段不同意思。然后通過(guò)頻率計(jì)算出熱頻詞

數(shù)據(jù)放在文章里面了,就不用花積分下載了

**

代碼

#TODO鳥(niǎo)欲高飛,必先展翅

#TODO向前的人:Jhon

importjieba.possegaspsg

text=open("data/冬奧會(huì)評(píng)論區(qū)的數(shù)據(jù).txt","r",encoding="utf-8").read()

text_psg=psg.lcut(text)

#TODO楊過(guò)nr

print('人物名詞性標(biāo)注為:\n',''.join(['{}{}'.format(w,t)forw,tintext_psg]))

name_counts={}#定義字典用于存儲(chǔ)詞及其出現(xiàn)的次數(shù)

forword_pairintext_psg:

iflen(word_pair.word)==1:

continue

else:

ifword_pair.flag=="nr"orword_pair.flag=="z":#TODOflag方法

name_counts[word_pair]=name_counts.get(word_pair,0)+1#遍歷所有詞,每次出現(xiàn)對(duì)應(yīng)的詞都加1

#print(name_counts)#{pair('葉老漢','nr'):2,pair('衛(wèi)州','nr'):1,pair('葉三姐','nr'):10,}

item=name_counts.items()

items=list(item)

#print(items)#TODO[(pair('魯濱遜','nr'),1),(pair('武功','nr'),825),(pair('言語(yǔ)','nr'),96)]

items.sort(key=lambdax:x[1],reverse=True)#根據(jù)詞語(yǔ)出現(xiàn)的順序從大到小排序

name_list=open('./data/冬奧會(huì)人名出現(xiàn)次數(shù).txt',"w",encoding="utf-8")

foriinrange(len(items)):

name,pos=items[i][0]

count=items[i][1]

name_count=name+':'+str(count)

name_list.write(name_count+'\n')

name_list.close()

代碼里面注釋的已經(jīng)非常清楚,不同的可以私信我,或者在評(píng)論區(qū)打出來(lái),看到了會(huì)及時(shí)解惑的。

**

數(shù)據(jù)

v熱v我,奪冠后齊廣璞再次收獲金墩墩!此前他在空中技巧混合團(tuán)體比賽中獲得亞軍。

拉多拉夫,在本屆冬奧會(huì)已斬獲一金一銀。

虎口水,齊廣璞一金一銀拿到金墩墩的他不斷擦拭淚水,老將不易!

拉科羅l,在剛剛結(jié)束的自由式滑雪男子空中技巧決賽中,

酒啊就是你,中國(guó)隊(duì)選手齊廣璞在本屆冬奧會(huì)上首次拿出5.0的高難度動(dòng)作

會(huì)積極,并以出色的發(fā)揮獲得129.00分,奪得金牌!這是繼2006年都靈冬奧會(huì)

街廓,2月16日晚的崇禮,男子自由式滑雪空中技巧決賽

阿克蘇九年,他的難度5.0動(dòng)作拿下129分,圓夢(mèng)奪金!賽后,齊廣璞也熱淚盈眶!

啊可能是,這也是中國(guó)代表團(tuán)本屆冬奧會(huì)的第七枚金牌!“我做到了,讓五星紅旗飄揚(yáng)在最高處。

啊空間你是,但其實(shí)還不夠好,本來(lái)還能有更高的分?jǐn)?shù)?!?/p>

暗殺即可,中國(guó)老將齊廣璞發(fā)揮出色。圖/新華社

后即可,15日晚的男子資格賽,齊廣璞和賈宗洋都是第1輪就憑借高分動(dòng)作,

哈卡斯,排名前兩位直接晉級(jí)決賽,后者更是高質(zhì)量再現(xiàn)4.425動(dòng)作,拿到125.67分。

JJ看來(lái)我,老將賈宗洋拼盡了全力。圖/新華社

哦怕,備戰(zhàn)中,齊廣璞曾遭遇困難,有一段時(shí)間情緒不是很好。

喀喀喀,精神壓力較大,長(zhǎng)時(shí)間失眠,但他都克服了。

阿克蘇六年,“因?yàn)橛袎?mèng)想,什么都不是問(wèn)題?!北本┒瑠W會(huì)就是他前進(jìn)的最大動(dòng)力。

郝鵬,這些年,齊廣璞拿到的獎(jiǎng)項(xiàng)不勝枚舉,世界杯冠軍、世錦賽冠軍……不過(guò)。

肯德基,他參加過(guò)溫哥華、索契、平昌三屆冬奧會(huì),都未能收獲獎(jiǎng)牌,這次能獲得第

數(shù)據(jù)每行逗號(hào)前是名字,逗號(hào)后的是評(píng)論內(nèi)容,數(shù)據(jù)不太正統(tǒng),先湊合著用,后面你就會(huì)發(fā)現(xiàn)有點(diǎn)那個(gè)味道了。

結(jié)果:

齊廣璞:79

冰墩墩:70

蘇翊鳴:44

谷愛(ài)凌:43

徐夢(mèng)桃:41

滑雪:30

范可新:15

賈宗洋:13

高亭宇:11

平昌:6

滑冰:6

世錦賽:5

索契:5

晉級(jí):4

安斯卡:4

韓曉鵬:4

張虹:4

任子威:4

小鳴:4

溫哥華:3

元老:3

張家口:3

阿克薩:3

祝賀:3

吉祥物:3

薩克森:3

張杰:3

金墩墩:2

亞軍:2

都靈:2

安康:2

阿喀琉斯:2

楊紫:2

桂冠:2

凌空:2

韓聰:2

融寶:2

寶融寶:2

雪容融:2

明星:2

苗子:2

五星紅旗:1

最高處:1

哈卡斯:1

郝鵬:1

肯德基:1

李玉:1

劉晨周:1

烏克蘭:1

寶貴:1

阿奎那:1

夢(mèng)中人:1

周轉(zhuǎn):1

高達(dá):1

斯諾克:1

滿(mǎn)懷希望:1

阿森納:1

內(nèi)存卡:1

利利斯:1

屠龍刀:1

東道主:1

馬克:1

阿基:1

正佳:1

天成:1

折桂:1

熱切地:1

齊天大圣:1

哈薩克:1

寶藏:1

寶貝:1

賀卡:1

謝幕:1

范迪安:1

雪容融:1

依舊:1

舒斯:1

施尼:1

曼德?tīng)?1

肥墩墩:1

圣保羅:1

榮幸之至:1

熊貓:1

滾滾:1

仰泳:1

太棒了:1

康弘:1

最佳:1

大力支持:1

小胖:1

祝福:1

施圖拜:1

孫琳琳:1

張雨婷:1

終封王:1

褚鵬:1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論