搜索引擎與輿情監測系統的區別_第1頁
搜索引擎與輿情監測系統的區別_第2頁
搜索引擎與輿情監測系統的區別_第3頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

搜索引擎與輿情監測系統的區別

搜索引擎和輿情監測系統雖然有著一些共通之處,但是二者的設計初衷完全不同,我們要想要了解輿情監測需要哪種工具,就必須先要了解各種工具是為了解決什么問題而設計的,其工作原理又是什么。搜索引擎的核心價值在于快速地為用戶找到所需要的內容,它是在大而全的收錄的基礎上,按一定算法評估頁面內容的價值,并以倒序排列的方式呈現給用戶。董敬一網絡輿情研究認為,輿情監測系統的核心價值是第一時間獲取與“我”相關的輿情信息。輿情監控重點強調的是第一時間、與“我相關”以及輿情價值。有一點需要注意的是內容價值和輿情價值完全是兩回事,并不是所有的頁面的信息都是輿情信息,技術站點、下載站點以及訪問量極低的僵尸站點的信息就不是輿情信息。也有可能某一篇博文的內容價值很低,只有幾句話幾個圖片,但是很有可能它的輿情價值卻很大。搜索引擎與輿情監測系統的不同具體體現在:一、全網抓取與重點抓取搜索引擎的工作原理是先將所有互聯網上它認為有用的頁面先抓取到它的數據庫中,然后對這些頁面進行索引,最后使用戶提交一個關鍵詞時由系統在它自己的數據庫中對這個關鍵詞進行匹配,并將匹配結果以一種順序展示給搜索者。整個互聯網上的站點是海量的,并不是所有的網絡站點上都會產生有價值的輿情信息,我們通過對近些年的網絡熱點事件進行觀察就會發現,幾乎所有的輿情事件最開始都是在有數的一些重點網站上產生的,例如新浪博客、天涯論壇、貓撲以及類似華龍網、遼一網這類地方網站,除了突發事件能夠直接被門戶關注之外,一般性事件都是經過這些網站的發酵之后,才被各大新聞門戶關注,從而促使輿情爆發。所以輿情監控的重點,顯然不是整個互聯網,而是這些易于產生輿情事件的論壇、博客、社交網站、地方網站及新聞站點,例如大連西盈信息技術有限公司的西盈網絡輿情監測系統就提供了一個3000個基礎網站監測列表,幾乎已經可以覆蓋整個網絡輿論場。輿情系統的重點抓取策略可以使信息抓取工作更加精準,有效的避免了信息噪音對系統正常運行的影響,從而提高后面的輿情分析系統的工作效率。二、內容價值與輿情價值搜索引擎的工作原理主要是判斷網頁的內容價值,判斷內容價值這其中起主導作用的是鏈接分析技術,基本工作原理是,當搜索引擎發現有大量的高質量頁面有鏈接同時指向某一個頁面時,搜索引擎則認為這個頁面很“重要”,從而將這個頁面呈現給搜索者。鏈接分析技術顯然不適用于輿情價值的判斷。第一,鏈接分析技術存在盲區,近年來一些新興的WEB2.0站點開始主動屏蔽搜索引擎的抓取,例如一些微博和SNS社交網站,而這些網站由于其傳播速度快,恰恰是易于爆發輿情危機的地方。第二,鏈接分析技術無法判斷該頁面的輿情價值,例如某個論壇的某個貼子,可能只有幾行文字配合幾副圖片,該頁面對于搜索引擎來講,內容的價值很低,但可能由于其文字內容和圖片內容與網民利益切身相關,它可能具有很重要的輿情價值,但搜索引擎可能并不會對這個頁面進行收錄,或者該頁面排名非常靠后,使人難以檢索發現到,錯過了輿情監控的最佳時機。以上搜索引擎在輿情工作中的兩個致命缺陷,嚴重制約了輿情工作人員及時獲取輿情信息的能力,被忽略的輿情信息很有可能發展爆發,產生嚴重后果。而輿情監測系統會考慮到如轉發數、回復數、瀏覽量、傳播速度這些更能反映輿情價值的參數,來判斷一個信息是否具有輿情價值。三、被動收錄與主動抓取由于搜索引擎索引的范圍是整個互聯網,海量數據的處理肯定無法做到時實監控,搜索引擎基于內容價值對各個網站有自己判斷,對它認為質量高的網站收錄速度會快一些,對它認為質量低的網站收錄速度就會慢一些,而這種判斷并不是基于對輿情價值的判斷,所以仍然會產生輿情價值高的內容沒有被索引或是已經過了很久才被索引,搜索引擎什么時間放出爬蟲去抓取目標網站,以及收錄目標網站的哪些頁面,這對我們來說都只能被動等待,搜索引擎處于自身商業利益考慮,一般是不會100%抓取一個網站的內容的。還有一點,通常輿情信息都會發生在網站的內頁,搜索引擎抓取網站內頁后,在很長一段時間都不會對這個內頁再次抓取,這樣便很難跟蹤這些輿情信息的變化趨勢,例如對信息回貼、評論、瀏覽量和轉載量的監控,這些都會對輿情監控工作帶來嚴重影響。而輿情監控系統的監控范圍是互聯網上易于產生輿情信息的網站,由于監控目標非常精確,所以可以提高監控效率,輿情監控系統什么時候放出爬蟲去抓取目標網站,完全由我們自己說了算,我們可以30分鐘抓取一次,也可以1分鐘抓取一次,也可以想抓取的時候就抓取,而且理論上可以做到對目標網站的100%抓取,包括對重點輿情信息的跟蹤抓取,這種主動監控機制可以保證輿情工作者第一時間發現輿情信息,有效把握黃金4小時,引導輿情走向。輿情監控系統在重點監控網站以外也可以參考和跟蹤搜索引擎的內容,可以做到統籌兼顧,萬無一失。四、人工檢索與軟件聚合在沒有輿情監控系統的年代,監控各個網站輿情信息,人工檢索的工作量是很大的,例如判斷一個信息的轉載量,還要考慮其標題的變種,衍生內容,替代詞、傳播范圍等等因素,而且很多私秘網站的內容在通用搜索引擎上還無法檢索到,例如微博和一些SNS社區,還需要借助相關垂直搜索工具來檢索信息,這些監控工作都需要持續跟蹤,所以就需要不斷的重復進行相關人工檢索,這個工作效率就非常低了。軟件就是為了解決人工重復勞動的問題,這些動作其實完全都可以借助專業的輿情監控系統來完成,例如董敬一網絡輿情提供的專業輿情監控系統,可以對輿情信息進行深度分析,通過重點目標監測和元搜索引擎輔助監測,實現全網信息匹配,將全網各種輿情信息副本、衍生版本聚合在一個操作界面下,覆蓋微博、SNS社區或其他私秘網站,幫助輿情監控工作者宏觀把握輿情走勢。五、主觀判斷與智能預警以前輿情工作者通過搜索引擎獲取信息,都是通過自己的主觀認識,評判一個輿情信息的價值,而這種主觀認識,由于缺乏及時的具體數據支持,例如傳播速度、轉載量、回復量、正反面觀點比例判斷等等,經常會出現偏差,這就易于產生輿情誤判。還有對一些新興網絡詞語用在不同情景下的語意把握,完全憑主觀學習和判斷,這個難度就比較大。輿情監控系統擁有有效監控這些判斷輿情價值參數的手段,就可以解決這些問題。輿情監控系統通過對歷史輿情事件的研究,通常擁有自己的判斷模型,什么條件達到什么預警級別、在什么時候預警,以何種方式預警,輿情監控系統都會有更科學的判斷方法。輿情監控系統一般都會配備一個衍生詞數據庫,這個數據庫通常具備自我學習功能,針對近些年互聯網上陸續出現的一些網絡詞匯,例如神馬、蒜你狠、坑爹、上墻、拼爹、你妹等等進行主動學習和收錄,在不同的語境下做具體的語意分析,保證輿情監控不留死角,與時具進。除此之外,輿情監控系統通常都會集成一些專門為輿情工作者量身定制的貼心小功能,例如手機短信、郵件通知,可以讓輿情工作者在非工作時間也能第一時間掌握網絡輿情

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論