




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于大數(shù)據(jù)的中文輿情分析社交媒體發(fā)展日益矚目,在這個(gè)社會(huì)化媒體時(shí)代,用戶成為企業(yè)最好的品牌推廣大使。本文以新浪微博上某大型商場(chǎng)的官方微博的粉絲發(fā)表的微博為分析數(shù)據(jù),通過語義分析系統(tǒng)分析生成針對(duì)每個(gè)客戶的客戶肖像,了解客戶潛在的消費(fèi)意愿,為客戶推送專門制定的打折方案及優(yōu)惠券。本文的系統(tǒng)基于 Hadoop 平臺(tái)的文本分析,IBM Cognos 無縫集成 DB2 BLU 加速器來優(yōu)化分析能力,提供快速迅捷的查詢和分析。引言社交媒體發(fā)展日益矚目,博客、微博社交網(wǎng)絡(luò)等悄然改變著人們的生活方式。微博,微信,包括天貓,京東等用戶日益增多,用戶主動(dòng)發(fā)布的微博或者評(píng)論數(shù)量十分可觀。在這個(gè)社會(huì)化的媒體時(shí)代,用戶成
2、為企業(yè)最好的品牌推廣大使。如何從這些可觀的數(shù)據(jù)中分析出用戶的潛在且準(zhǔn)確的購物意愿及用戶需求,將成為提高品牌價(jià)值和聲譽(yù),改善用戶體驗(yàn)的新興途徑。曾有很多營銷方法來向用戶推送優(yōu)惠或者打折信息,但準(zhǔn)確程度十分低,甚至還出現(xiàn)錯(cuò)誤推送及分析等。本文將通過數(shù)據(jù)分析和零售案例來說明中文輿情分析的可行性,基于 Hadoop 平臺(tái)的文本分析以及大數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫 DB2 BLU(Big data,Lightening fast,Ultra easy),提高分析的準(zhǔn)確度。互聯(lián)網(wǎng)輿情分析背景21 世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。互
3、聯(lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。社交媒體時(shí)代,通過互聯(lián)網(wǎng)平臺(tái)表達(dá)社情民意,體現(xiàn)用戶的意愿,評(píng)論和態(tài)度。從古代的“防民之口甚于防川”,到如今的網(wǎng)絡(luò)時(shí)代,“人人都有了自己的麥克風(fēng)”。輿情,就是一個(gè)風(fēng)向標(biāo)。輿情分析,就是針對(duì)民眾態(tài)度的收集和整理,發(fā)現(xiàn)相關(guān)的意見傾向,客觀反映輿情狀態(tài)。海量的數(shù)據(jù)隱含著巨大的信息。例如亞馬遜上的用戶對(duì)某商品的評(píng)論,商家可以根據(jù)用戶的評(píng)論和反饋為用戶提供定制性的服務(wù),甚至可以預(yù)測(cè)用戶的需求,從而達(dá)到更加準(zhǔn)確的銷售目的;例如新浪微博上
4、粉絲過萬的大型零售商等,也可以根據(jù)用戶發(fā)表的微博,微話題,簽到地點(diǎn)為用戶定制性的推送優(yōu)惠及新品信息。這些看似龐大無規(guī)則的數(shù)據(jù),包含著大量的用戶標(biāo)簽及潛在的用戶肖像。存儲(chǔ)與分析中文文本數(shù)據(jù)也是技術(shù)上的關(guān)鍵,如何能夠存儲(chǔ)并分析海量數(shù)據(jù),生成精確的用戶標(biāo)簽,依賴于數(shù)據(jù)存儲(chǔ)系統(tǒng)和文本分析系統(tǒng)的技術(shù)。本文的數(shù)據(jù)存儲(chǔ)運(yùn)用 DB2 BLU Acceleration,利用 DB2 BLU 速度快、與 Cognos 無縫結(jié)合的特性來存儲(chǔ)和分析數(shù)據(jù)。中文文本分析基于 Hadoop 的文本分析平臺(tái),快速進(jìn)行中文分詞和建立標(biāo)簽詞典,本文將在后面章節(jié)進(jìn)行具體介紹。中文微博數(shù)據(jù)分析邏輯微博是現(xiàn)代網(wǎng)絡(luò)社會(huì)溝通的重要工具,以
5、新浪微博為例,很多大型零售商會(huì)建立自己主頁,發(fā)布近期的打折、新品信息。但是,這些信息往往不能針對(duì)每個(gè)用戶的喜好來發(fā)布,類似于廣播一樣,每一條微博是否對(duì)每個(gè)粉絲(用戶)有意義,需要用戶自己來過濾。但實(shí)際上,粉絲自身發(fā)布的微博含有大量的數(shù)據(jù)信息,這些信息包含用戶的個(gè)人愛好,自己年齡階段,近期的想購買的款式,甚至是自己希望有的款式與功能等。這些數(shù)據(jù)大多數(shù)為非結(jié)構(gòu)數(shù)據(jù)。圖1 營銷分析邏輯流程如圖 1, 顯示了整個(gè)營銷分析流程的邏輯。從客戶發(fā)布微博開始, 到商家向用戶發(fā)布商品目錄和優(yōu)惠信息,整個(gè)流程分為五個(gè)步驟:首先,客戶發(fā)布微博:本文從微博上初步獲取的數(shù)據(jù)為“粗?jǐn)?shù)據(jù)”,雖然數(shù)據(jù)雜亂需要分析,但是其中包
6、含很多用戶自己“無意識(shí)”的為自己打上的標(biāo)簽,這為后續(xù)的語義分析打下了基礎(chǔ)。粗?jǐn)?shù)據(jù)中包括類似于:性格、年齡階段、星座、性別、突出喜好,例如“粉紅控”、“80 后”、“籃球達(dá)人”等。掌握這些用戶自定義的標(biāo)簽后,把這些作為用戶肖像的一部分。其次,獲取商家的粉絲:商家的粉絲包括關(guān)注商家微博的用戶以及簽到用戶被提及的品牌粉絲等。這些粉絲的發(fā)布的微博便作為語義處理的輸入。第三,分析用戶的微博:將用戶的微博進(jìn)行語義分析。基于 Hadoop 的文本分析平臺(tái)將對(duì)中文進(jìn)行分詞,分詞后將與字典進(jìn)行比較和分類,然后對(duì)比總結(jié)出該用戶的興趣愛好所在,作為用戶的一個(gè)標(biāo)簽,同時(shí)作為客戶肖像的一部分。例如,一個(gè)用戶的微博中經(jīng)常
7、提到類似于籃球、足球等運(yùn)動(dòng),那么“愛運(yùn)動(dòng)”就及可能成為其標(biāo)簽,作為客戶肖像的一部分。第四,指定相關(guān)營銷策略:客戶肖像制定后,存入數(shù)據(jù)庫,并根據(jù)微博內(nèi)容實(shí)時(shí)或定時(shí)更新客戶肖像,根據(jù)客戶的肖像,向用戶推送相應(yīng)的商品打折、優(yōu)惠、最新上架產(chǎn)品信息。例如,用戶的愛好中包括“運(yùn)動(dòng)”,并在微博中提到某品牌的運(yùn)動(dòng)鞋,那么可以向該用戶推送該運(yùn)動(dòng)品牌的打折優(yōu)惠信息或優(yōu)惠券。最后,消費(fèi)者便可使用消費(fèi)券或根據(jù)打折信息購買相關(guān)產(chǎn)品。這樣向用戶推送的促銷信息會(huì)更加符合用戶近期的購買意愿和用戶的個(gè)性特征,可以做到為每個(gè)用戶個(gè)性定制的營銷方案,使推送更有效。下面,本文將針對(duì)整個(gè)系統(tǒng)的各個(gè)平臺(tái)進(jìn)行介紹。方案架構(gòu)整個(gè)系統(tǒng)架構(gòu)如圖
8、 2 所示,主要由文本分析系統(tǒng)、DB2 BLU 數(shù)據(jù)庫以及 Cognos 數(shù)據(jù)分析工具組成。首先從互聯(lián)網(wǎng)上獲取數(shù)據(jù)以后,將原始數(shù)據(jù)送入文本分析平臺(tái)進(jìn)行分析,主要做中文分詞、情感分析等工作;然后將文本分析結(jié)果整合后輸出送入 DB2 BLU 數(shù)據(jù)庫中,進(jìn)行存儲(chǔ)、建表,建表包括客戶肖像表、商品目錄表、促銷策略表等;最后,利用 DB2 BLU 與 Cognos 無縫集成的優(yōu)勢(shì),用 Cognos 對(duì)數(shù)據(jù)進(jìn)行分析。根據(jù) Cognos 分析出的結(jié)果,生成促銷的報(bào)表,繼而將優(yōu)惠信息分別推送給每個(gè)用戶。圖2 方案架構(gòu)在整個(gè)方案架構(gòu)中,文本分析平臺(tái)是輿情分析的核心。語義分析常見有兩種思路,一種是基于句法結(jié)構(gòu),采用
9、逐條使用規(guī)則的形式驅(qū)動(dòng)語義解釋,這種思路適用于以解決語言的綜合語法為目標(biāo)的研究;還有一種思路就是部分或完全拋開語法,直接從句子本身生成語義系統(tǒng),或者以句法分析的結(jié)果作為語義分析的輸入,這種思路在解決一些特定領(lǐng)域的問題有較大優(yōu)勢(shì)。本文的基于 Hadoop 文本分析平臺(tái)就是采用第二種思路來設(shè)計(jì)的。語義分析的方法可以基于語法、知識(shí)、統(tǒng)計(jì),還包括自然標(biāo)簽。基于自然標(biāo)簽的方法即利用網(wǎng)絡(luò)數(shù)據(jù)來進(jìn)行語義分析。本文的文本分析平臺(tái)即為基于自然便簽的中文輿情分析平臺(tái)。基于 Hadoop 平臺(tái)的中文文本分析系統(tǒng)可以有效的對(duì)中文進(jìn)行分詞、情感分析以及字典匹配。數(shù)據(jù)的獲取文本分析的數(shù)據(jù)來源十分重要,網(wǎng)絡(luò)上的數(shù)據(jù),大多是
10、非結(jié)構(gòu)性數(shù)據(jù),對(duì)這些非結(jié)構(gòu)性數(shù)據(jù)在獲取的過程中或文本分析前進(jìn)行預(yù)處理或預(yù)分析可以為下一步的文本分析帶來較大的優(yōu)勢(shì)和便利。本文用 python 腳本提取微博用戶的數(shù)據(jù),將用戶的名稱、ID、性別、標(biāo)簽、地點(diǎn)等提取出來。代碼清單如下:清單 1. 提取微博用戶信息代碼 print "開始獲取粉絲 ID" fansurl = "4=5&6=7".format(fansmethod ,access_token,'screen_name','大都會(huì)','count',2000,'cursor',1
11、) fansurlfile = urllib2.urlopen(fansurl) fansuid = fansurlfile.read() fansidlist = eval(fansuid)'ids' print "獲取粉絲 ID 成功" false = False null = None true = True print "開始寫入粉絲用戶信息" outputfile = open("wbuserprofile.xml","w") for id in fansidlist: outputfil
12、e.write("<user>nt<id>"+str(id)+"</id>n") print "寫入 uid".format(id) try: profile = urllib2.urlopen(" outputfile.writelines("t<screen_name>"+eval(profile)"screen_name"+"</screen_name>n") print "寫入 uid 微
13、博名稱完成".format(id) outputfile.writelines("t<location>"+eval(profile)"location"+"</location>n") print "寫入 uid 微博地點(diǎn)完成".format(id) outputfile.writelines("t<gender>"+eval(profile)"gender"+"</gander>n") prin
14、t "寫入 uid 微博性別完成".format(id) tags = urllib2.urlopen(" print "開始寫入 uid 標(biāo)簽".format(id) outputfile.writelines("t<tags>n") for tag in eval(tags): for key in tag.keys(): if key.isdigit(): outputfile.writelines("t"+tagkey+"n") outputfile.writeli
15、nes("t</tags>n") print "完成寫入 uid 標(biāo)簽".format(id) except: print "連接出錯(cuò)無法寫入 , 跳過!" outputfile.write("</user>") print "sleep 60 mins" time.sleep(3600) continue outputfile.write("</user>") outputfile.write("n") outputf
16、ile.close() print "完成粉絲用戶信息" print "文件寫入結(jié)束"這段代碼是提取出用戶的肖像 (profile),提取出的結(jié)果片段如下:<user> <id>2863185903</id> <screen_name> 花開有季 xn</screen_name> <location> 北京 延慶縣 </location> <gender>f</gander> <tags> 星座命理娛樂 </tags> &l
17、t;/user> <user> <id>1246347253</id> <screen_name> 杰里 - 商 </screen_name> <location> 北京 房山區(qū) </location> <gender>m</gander> <tags> 搞笑幽默 </tags> </user> <user> <id>3265394820</id> <screen_name> 小荷相公丶 </
18、screen_name> <location> 重慶 </location> <gender>f</gander> <tags> </tags> </user> <user> <id>2036066523</id> <screen_name> 青春的 Dalin</screen_name> <location> 江西 南昌 </location> <gender>f</gander> <tag
19、s> </tags> </user> <user> <id>2013144111</id> <screen_name> 勢(shì)必拿下會(huì)計(jì)證 _ 微微貓 </screen_name> <location> 北京 宣武區(qū) </location> <gender>f</gander> <tags> 旅游 WE 90 后 </tags> </user>可以看到,用戶的 ID、用戶昵稱、地點(diǎn)已經(jīng)性別和標(biāo)簽被提取了出來。除了 ID 和用戶
20、名稱以外,其它的項(xiàng)有可能為空值。特別是標(biāo)簽 (tag) 項(xiàng)。這里的標(biāo)簽是直接從微博中提取的,是由用戶自己認(rèn)為自己有的特質(zhì),并不是經(jīng)過文本分析得到的。而當(dāng)對(duì)用戶發(fā)布的微博內(nèi)容進(jìn)行文本分析以后得到的用戶標(biāo)簽,將與這部分“原始標(biāo)簽”相結(jié)合,共同構(gòu)成最終用戶肖像的一部分。獲取用戶微博內(nèi)容的代碼部分與清單 1 中的代碼類似,所以這里不再贅述分析。微博內(nèi)容獲取后將送入文本分析平臺(tái)進(jìn)行分析, 如下圖所示:由此可見,本文的數(shù)據(jù)源的獲取和預(yù)處理分為兩個(gè)部分,一部分作為用戶“原始肖像”(其中包括用戶的 ID、性別、“原始標(biāo)簽”、地點(diǎn)等),另一部分為用戶的微博內(nèi)容,這一部分將作為輸入進(jìn)行 Hadoop 平臺(tái)上的文本
21、分析。基于 Hadoop 平臺(tái)的文本分析核心作為一個(gè)應(yīng)用部署在 BigInsight 上面,每次只需運(yùn)行這個(gè)應(yīng)用,就可以得到文本分析的結(jié)果,操作十分簡單。基于 Hadoop 平臺(tái)的文本分析為本文的技術(shù)核心,下面一節(jié),就對(duì)這一部分技術(shù)進(jìn)行描述。基于 Hadoop 平臺(tái)的文本分析基于 Hadoop 平臺(tái)的文本分析,在幾年之前就有過相關(guān)的研究,在 BigInsights- 基于 Hadoop 的數(shù)據(jù)分析平臺(tái)這篇文章中,介紹了 IBM BigInsights 這個(gè)基于 Hadoop 的數(shù)據(jù)分析平臺(tái),這篇文章是利用 BigSheets 來進(jìn)行大數(shù)據(jù)分析的功能。在本文中,利用 BigInsights 部署
22、 Hadoop 及其組件,將基于 Hadoop 平臺(tái)的中文的文本分析系統(tǒng)部署在 BigInsights 上。如何實(shí)現(xiàn) Hadoop 的部署與管理可以參看相關(guān)的參考文獻(xiàn)以及 IBM BigInsights 產(chǎn)品的相關(guān)介紹。在部署結(jié)束之后,在服務(wù)器端用 ./start.sh 啟動(dòng) BigInsights,如下圖所示:圖 4. 啟動(dòng) BigInsights為了更方便的管理 Hadoop 組件,運(yùn)行及管理各個(gè)應(yīng)用,BigInsights 提供一個(gè) Web 圖形界面。啟動(dòng) BigInsights 之后,通過 http:/< 主節(jié)點(diǎn)主機(jī)名或 IP>:8080/data/html/index.h
23、tml#redirect-files 進(jìn)入 HDFS 界面:圖 5. BigInsights 查看 input 內(nèi)容本文將獲取的微博數(shù)據(jù)放在相應(yīng)工程文件的 Input 文件夾下,作為文本分析程序的輸入。從圖 5 中可以看到,輸入的內(nèi)容是用戶的 ID 加上單純的微博內(nèi)容。 運(yùn)行 Application 下的 NER_src2 進(jìn)行分詞,輸出文件將放在工程文件的相應(yīng)的 output 文件夾中。圖 6. 運(yùn)行 BigInsights 上的 Application當(dāng) Application History 中顯示的 Process 為 100% 時(shí)候,可以查看運(yùn)行的輸出結(jié)果:圖 7. 運(yùn)行后結(jié)果從圖
24、7 中可以看到運(yùn)行分詞的結(jié)果。分詞以后我們看到結(jié)果是一個(gè)用戶 ID 對(duì)應(yīng)多個(gè)分詞。本文在分詞系統(tǒng)里指定應(yīng)用需要的分詞長度。在本文中,我們指定的是 26 個(gè)中文字符。分詞系統(tǒng)會(huì)根據(jù)詞匯庫根據(jù)分詞規(guī)則將 2 到 6 個(gè)字關(guān)鍵詞提取,這里的關(guān)鍵詞提取出來的有幾個(gè)種類的詞:第一,一些命名實(shí)體的解析,如“喜劇片、電影、籃球鞋”等等;其次,情感詞的分析,例如“喜歡、贊、討厭”等等。由于文本分析的目的是向用戶推送相關(guān)產(chǎn)品信息,用戶也取自某商場(chǎng)的微博粉絲,所以更加關(guān)注對(duì)某類商品有 Positive 情感傾向的用戶。在 BigInsights 中分析好的用戶數(shù)據(jù)可以直接導(dǎo)入 DB2 數(shù)據(jù)庫中,只要配置好 Dat
25、abase Export 這個(gè) Application 將要導(dǎo)出到的數(shù)據(jù)庫的 IP 以及端口號(hào)即可。圖 8. 從 BigInsights 中將結(jié)果導(dǎo)入 DB2 BLU當(dāng)導(dǎo)出完成后,可以到 DB2 BLU 的數(shù)據(jù)庫中查看結(jié)果:圖 9. DB2 BLU 中結(jié)果表示意圖如圖 9 所示,這是導(dǎo)入結(jié)果的初步分析表,這張表里的三列 UID,Token( 分詞結(jié)果 ),還有 Category( 分詞字典匹配分類 )。其中 Category 這一列是根據(jù)文本分析系統(tǒng)里的字典匹配,將分詞的結(jié)果與我們所建立的商品類別字典匹配而得到的結(jié)果。在這張表里只顯示了前十行,這十行都屬于同一個(gè)用戶 ID。在這個(gè) ID 為 2
26、492048764 的用戶的微博里所提到的詞語中可以發(fā)現(xiàn)他 / 她所關(guān)注的商品類別。對(duì)這個(gè)類別進(jìn)行統(tǒng)計(jì),可以得到用戶的 profile 表,圖 10 所示:圖 10. USER_PROFILE 表示意圖從圖 10 可以看到,每個(gè)用戶對(duì)不同類別的商品關(guān)注度不同。后續(xù),我們可以根據(jù)這些不同以及用戶的標(biāo)簽來分析用戶對(duì)某類商品的購買意愿,從而向其推送商品折扣信息。這樣,我們就可以將 DB2 BLU 中的用戶信息表等無縫集成 Cognos,進(jìn)行數(shù)據(jù)的展示和分析。這就是整個(gè)文本分析平臺(tái)的操作流程。下面將對(duì)其中的文本分析做詳細(xì)的闡述。圖 11. 基于 Hadoop 平臺(tái)的文本分析如圖 11 所示,為基于 H
27、adoop 平臺(tái)的文本分析架構(gòu)圖,整個(gè)架構(gòu)主要由三部分組成:引擎部分:用戶發(fā)布的微博中獲取的數(shù)據(jù)生成文本格式送入文本分析引擎,在輸入之前,由于客戶的 ID、性別、地點(diǎn)已經(jīng)提取出來,可以作為客戶肖像的一部分,但并不送入文本分析系統(tǒng)。引擎部分主要處理中文分詞、將分詞與詞匯庫中的字典進(jìn)行匹配、分類。分詞的作用主要將動(dòng)詞,以及動(dòng)詞后的名詞分開,情感詞,以及表達(dá)情感的對(duì)象分開等。詞匯庫部分,主要負(fù)責(zé)存儲(chǔ)客戶合作模型的詞匯詞典,這一部分的詞典部分有手工添加,部分由系統(tǒng)根據(jù)詞匯庫聚類生成,詞匯庫存于 HBase 上;最后是負(fù)責(zé)輸入輸出文本的部分,這一部分利用 JAQL 來拼接“原始標(biāo)簽”與分詞后的標(biāo)簽,一起
28、構(gòu)成客戶肖像表。圖 12. 語義分析流程引擎中文語義分析的流程如圖 12 所示。語義分析的目的是產(chǎn)生用戶肖像中最重要的部分 - 用戶標(biāo)簽,例如“喜歡運(yùn)動(dòng)”、“愛時(shí)尚”等,這些用戶標(biāo)簽是商家向用戶推送商品信息的重要依據(jù)。對(duì)于語義分析分成兩步,詞法分析和高級(jí)文本分析。第一部分為詞法分析,主要進(jìn)行分詞、匹配字典等。系統(tǒng)字典主要是由手動(dòng)設(shè)置和詞語聚類生成的。情感分析模塊主要針對(duì)文本中表達(dá)情感的詞語進(jìn)行分析,例如“喜歡”、“一般”、一些表示肯定或否定的詞語來進(jìn)行關(guān)鍵字匹配與規(guī)則匹配。情感詞的分析有助于商家找出商品潛在的缺陷和用戶的使用反饋,針對(duì)未購買的用戶,用戶發(fā)布的針對(duì)產(chǎn)品的情感詞,有助于商家獲取用戶
29、需求,所以情感詞的分析對(duì)輿情分析來說,十分重要。情感詞分詞的效果如圖 13 所示(某冰箱品牌用戶評(píng)論分詞):圖 13. 文本分析平臺(tái)分詞效果圖字典,在本系統(tǒng)中的分析及為重要,以人工字典為例,圖 14 表明了分詞后與字典匹配構(gòu)成的用戶標(biāo)簽的示意圖。從某用戶的微博內(nèi)容中提取的高頻詞匯如“籃球”、“NBA 球迷”、“球鞋”等,該用戶在運(yùn)動(dòng)類詞匯中多次提到球鞋、以及某品牌的籃球鞋子等,這些詞語將人工標(biāo)記為字典中“喜愛籃球”(范圍可以擴(kuò)大為喜愛運(yùn)動(dòng)),情感分析模塊將會(huì)根據(jù)描述這些詞語時(shí)候所運(yùn)用的情感詞,來標(biāo)記為喜好或者厭惡,或者“一般”。這里情感分析直接給出結(jié)果為“喜歡”。那么結(jié)合字典中的“籃球”關(guān)鍵字
30、,就會(huì)為用戶打上其中一個(gè)標(biāo)簽“喜愛籃球運(yùn)動(dòng)”,Nike 商家可以根據(jù)用戶的這樣一個(gè)喜好來推送相關(guān)的優(yōu)惠信息。圖 14. 分析示例更進(jìn)一步的,在這個(gè)語義分析的系統(tǒng)里,我們還可以做到,更細(xì)節(jié)的匹配與分析,例如,在這里,用戶提到定制球鞋,一些商家可以提供定制籃球鞋服務(wù)可以推送給該用戶,這樣準(zhǔn)確度比直接推送籃球運(yùn)動(dòng)產(chǎn)品優(yōu)惠會(huì)更加精確。由于用戶的微博數(shù)據(jù)是實(shí)時(shí)更新的,那么客戶的肖像也可以是實(shí)時(shí)更新的。這樣,商家推送的內(nèi)容才會(huì)更加準(zhǔn)確。在語義分析系統(tǒng)里,字典的更新速度相對(duì)要緩慢一些,因?yàn)樽值涫侨斯?biāo)記或者聚類分析而生成,相對(duì)比較穩(wěn)定,可以定時(shí)更新。IBM Cognos Dynamic Cube 無縫集成
31、DB2 BLU 提供迅捷的分析與查詢本文用于存儲(chǔ)客戶肖像的為 DB2 BLU Acceleration。BLU Acceleration 的架構(gòu)如下圖所示:圖 15. BLU Acceleration 架構(gòu)使用 DB2 BLU 的目的是因?yàn)槠淦叽笮阅軆?yōu)勢(shì):1. 列式存儲(chǔ)減少 I/O,基于列的高度壓縮:列式存儲(chǔ)只讀取需要的數(shù)據(jù)列,這樣可以減少 I/O,并基于列的高度進(jìn)行數(shù)據(jù)壓縮。2. 基于壓縮數(shù)據(jù)進(jìn)行操作,應(yīng)用字典壓縮技術(shù)并采用近霍夫曼編碼:這樣,絕大部分的 SQL 都會(huì)基于壓縮數(shù)據(jù)進(jìn)行,極大的減小內(nèi)存的使用。3. 采用數(shù)據(jù)跨越技術(shù)加快搜索速度:數(shù)據(jù)跨越技術(shù)會(huì)自動(dòng)檢測(cè)并跳過不符合條件的數(shù)據(jù)區(qū)域,
32、當(dāng)數(shù)據(jù)有序或呈稀疏狀時(shí),可以顯著的減少 I/O,并對(duì)用戶透明,無需 DBA 的操作。4. 多核高并行技術(shù),所有 SQL 都采用并行運(yùn)算模式:所有的 SQL 操作都采用并行的運(yùn)算模式,有效的利用 CPU 寄存器,避免并行干涉。5. 單指令多數(shù)據(jù)技術(shù),加快數(shù)據(jù)的處理速度:CUP SIMD 技術(shù)采取矢量處理模式,高效利用 CUP,獲得更高級(jí)別的數(shù)據(jù)操作并行度。6. 針對(duì)列存儲(chǔ)的預(yù)取算法,緩存跟多數(shù)據(jù):高效的利用內(nèi)存 Buffer Pool,緩存更多的數(shù)據(jù),有效減少 I/O。7. 對(duì)用戶更簡潔,只需加載、運(yùn)行即可:用戶無需進(jìn)行數(shù)據(jù)庫調(diào)優(yōu)操作,無需索引、MQT 等,對(duì)外沿用已有的 SQL 接口。由于 D
33、B2 BLU 的七大優(yōu)勢(shì),使數(shù)據(jù)庫操作更快、更簡、存儲(chǔ)更省。DB2 無縫集成 Cognos,本文的系統(tǒng)中使用 DB2 BLU 存儲(chǔ)客戶肖像、商家品牌樣本數(shù)據(jù)、簽到分析數(shù)據(jù)等,連接到 Cognos Server 上進(jìn)行查詢并進(jìn)行實(shí)時(shí)分析,使操作更快。如圖 16 所示的三張圖表,分別為某大型商場(chǎng)的消費(fèi)者喜好分布餅圖、兒童用品的關(guān)注趨勢(shì)柱狀圖(包括北京昌平、豐臺(tái)以及海淀區(qū))、客戶肖像表。圖 16. Cognos 展示推送圖示從 Cognos 展示的數(shù)據(jù)中可以看到,在北京幾個(gè)地區(qū)的分布中,其中海淀區(qū)(柱狀圖中的黃色區(qū)域)的用戶對(duì)兒童用品的關(guān)注度相對(duì)更高,那么在海淀地區(qū)的零售商或者零售商分店可以增加兒童
34、用品的進(jìn)貨量或者在商場(chǎng)里增加兒童用品的分布等等措施;針對(duì)個(gè)別用戶,客戶肖像表格里最后一列為分析出來每個(gè)用戶最關(guān)注的商品類型,商家可以根據(jù)用戶關(guān)注最密切的商品類型,向用戶推送優(yōu)惠信息。 分析的流程從客戶喜好開始,從整體喜好到某類商品的用戶群喜好分析,再到針對(duì)每一個(gè)用戶的分析。可以從時(shí)間、地點(diǎn)、年齡段等不同角度來了解用戶群的分布、客戶要求的集中程度等。客戶針對(duì)某一類產(chǎn)品有需求或非常感興趣的時(shí)候,商家即可推送優(yōu)惠券和優(yōu)惠信息給該用戶。這種營銷方式由于經(jīng)過輿情分析,比廣播式的推送準(zhǔn)確度要高很多,用戶的接受程度也高很多。未來,這種基于輿情分析的營銷方式也會(huì)廣泛被運(yùn)用。結(jié)束語本文介紹了基于大數(shù)據(jù)的中文輿情分析系統(tǒng),采用基于 Hadoop 平臺(tái)的文本分析,以及 IBM Cognos 無縫集成 DB2 BLU 加速器的優(yōu)化分析能力,提供快速的查詢和分析功能。整個(gè)系統(tǒng)針對(duì)互聯(lián)網(wǎng)大量的數(shù)據(jù)進(jìn)行處理、文本分析,經(jīng)過分析為客戶定制肖像,商家可以根據(jù)肖像來向客戶推送客戶需要的優(yōu)惠信息。經(jīng)過樣本數(shù)據(jù)測(cè)試,推送給用戶的信息,與用戶的自然標(biāo)簽(用戶自己為自己設(shè)定的)對(duì)應(yīng)性很高。在實(shí)時(shí)性、大量重復(fù)詞匯的處理上面,由于中文語義分析的局限性,還有待優(yōu)化和提高。參考資料 學(xué)習(xí)"DB2 10.5 信息中心&quo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校社團(tuán)室管理制度
- 學(xué)校足球場(chǎng)管理制度
- 學(xué)生分小組管理制度
- 學(xué)監(jiān)控管理管理制度
- 安全員智慧管理制度
- 安哥拉漁業(yè)管理制度
- 完善收發(fā)文管理制度
- 宜賓市采砂管理制度
- 實(shí)訓(xùn)室鑰匙管理制度
- 客服質(zhì)檢部管理制度
- 蒸汽發(fā)生器專項(xiàng)應(yīng)急預(yù)案
- 控制系統(tǒng)的滯后校正設(shè)計(jì)
- 西方現(xiàn)代思想史-講義
- 2023分布式光伏驗(yàn)收規(guī)范
- 廠房分布式光伏系統(tǒng)施工進(jìn)度計(jì)劃橫道圖
- 公廁改造工程施工方案
- 核發(fā)排水許可證辦事指南
- 法院聘用書記員考試試題及答案
- 剖腹產(chǎn)延長產(chǎn)假申請(qǐng)書
- 2023年06月江蘇南通如東縣司法局等17家單位招錄政府購買服務(wù)人員124人筆試題庫含答案詳解
- 湖南三支一扶考試歷年真題
評(píng)論
0/150
提交評(píng)論