




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
主講人:周富秋博士2009年11月24日智能計算助力互聯網的進化公司簡介海量公司是一家從事中文智能計算和數據挖掘的理論研究及技術開發的知識性創新企業,長期致力于智能計算的研究及其在互聯網的應用從字符到語義從非結構化到結構化行為分析在核心技術基礎上,提供智能計算基礎件產品和互聯網內容挖掘服務
互聯網現狀(1)
CNNIC的最新報告顯示,截止今年6月30日,我國網民規模、寬帶網民數、國家頂級域名注冊量三項指標持續穩居世界第一,其中:國家頂級域名注冊量達
1296萬網民規模達
3.38億,較去年底增長13.4%寬帶網民規模達
3.2億,占總網民數的
94.3%手機上網用戶達
1.55億,半年內增長了
32.1%網絡普及率達
25.5%
互聯網現狀(2)縱觀全球:互聯網每天的點擊數有1000億次全球所有的網頁之間有55萬億個連接互聯網中有10億個芯片每秒2百萬封郵件;3.1萬條短信246HB的存儲空間--多么大的一個磁盤互聯網上每秒產生的流量有7TB之多互聯網消耗了全球電力的5%
互聯網現狀(3)
數據累積量急劇增長、大量有價值的信息被淹沒,呈現“信息過剩”信息是異域、異構、非結構化的,呈現“信息孤島“實質“資源利用率低”:GoogleVS百度互聯網陰霾之概括:多–信息過量、難以消化雜–
信息真假、難以識別亂–
信息安全、難以保證難–
信息形式不一、難以統一處理互聯網未來轉量變為質變依賴網站模式創新:原創型、專業性、地域性、互動性。。。網站技術創新:智能計算、數據挖掘、信息融合。。。
以內容為紐帶,將整個互聯網搭建成一個語義邏輯整體從字符到語義篇章內篇章間篇章外詞實體……自然語言分詞應用層次研究層次命名實體、事件、主題標注關鍵詞技術知識網絡:概念樹自動消重無指導自動聚類半監督自動分類技術有指導自動分類(層級分類)命名實體識別新詞發現知識網絡:實體屬性-關系庫機器翻譯NLP搜索基于命名實體的聚類基于命名實體的分類基于命名實體的關聯半監督學習從非結構化到結構化非結構化
不可計算網頁文本pdf圖像影像結構化
可計算定義類型屬性運算邏輯值域H2X信息抽取技術視覺還原技術版式識別技術
創建知識網絡NBA科比麥迪喬丹朱芳雨CBA姚明鏈接中國男籃與美國男籃的橋梁通過命名實體識別、實體間關系挖掘獲得關系統計數據,從而在互聯網的海量數據中發現潛在的規律劉玉棟王治郅姚明即是NBA的強鏈接,又是NBA群與CBA群間的橋梁——結構洞弱鏈接與強鏈接:發現潛在的信息橋梁解決方案:海納在線數據挖掘服務格式分析HTML語法分析OCR、OFFICE/PDF等文檔內容提取*版式分析基于視覺的模式識別體裁分析*語法分析詞法分析句法分析、語體分析*語義分析命名實體識別信息抽取*形式化分析自然語言分析結構化信息RDF、RDFSchemeDOC,XLS,PDF,DB…圖像,音頻,視頻TXT,XML,HTML…解決方案:延伸閱讀-用戶體驗和智能對應某發布網頁,通過增加一些相關的文章題目與摘要,引導讀者閱讀更多的內容利用實體識別與關系分析等智能計算手段,實現聚類、實體與主題提取精彩計算,隨需而變點亮閱讀、增加粘度
降低制作成本、盤活已有資源更精準,更易于互動、實現個性化傳統的方法:熱點詞--只有發生了很久,才能通過統計得知是熱點現在的方法:時間維度與類別維度--滿文軍
是明星,蕭淑慎是明星,吸毒只要和這些人相關就是敏感新聞未來的方法:
時間維度,
同現維度及敏感維度--大批銀行倒閉之后,必然是經濟危機的開始,于是可以預測未來解決方案:熱點發現、跟蹤與預測(1)未來的方法喬布斯披露健康狀況蘋果股票應聲上漲喬布斯宣布要休病假蘋果股票應聲下跌10%…喬布斯與蘋果股價:一種穩定的關系人物喬布斯楊惠妍巴菲特股票中石化中石油蘋果喬布斯的健康情況直接影響到了蘋果股價解決方案:熱點發現、跟蹤及預測(2)解決方案:智能檢索與推送用戶行為分析、意圖識別、智能引導買房房地產房貸新盤0.10.50.2房價0.4時序統計房產名稱專家預測用戶行為分析命名實體屬性庫實體關系庫
解決方案:輿情分析與跟蹤別克昂克雷在論壇、博客等識別出的命名實體將可以獲取民間的產品評價為什么要識別?句子中會有歧義,錯誤的提取產品名將會導致錯誤的分析基于知識網絡的智能計算:實現通過網絡了解民情、匯聚民智通過用戶行為分析,采用相應的多維度的興趣描述、多方面的推送策略詞群資訊分類知識樹父節點敏感性T男女喜好年齡偏好…總頻率姚明、火箭NBA當下不敏感偏男性/80%14~40…4117932貸款、房產房地產當下敏感偏男性/75%24~50…562144…………………LV,PRADA流行當下不敏感偏女性/90%16~35…3127針對男性、24~40進行聚類,獲得一個個子群體,通過更多的詞群予以表示解決方案:個性化服務解決方案:網站凈化服務“和訊網”垃圾帖過濾凈化--》疏導助力客戶增效,即提升清除效果、網站運營、品牌價值省力,即節省人力、財力、心力創建穩定、和諧的網站環境達到客戶期望的效果人員等成本節省60%以上持續保持處理正確率90%以上7×24小時不間斷服務10秒內自動處理
解決方案:網站凈化服務(案例)互聯網數據/內容挖掘路徑主題抽取、深度標引比對、統計形成二次情報對決策具有指導意義知識情報消重、結構化、索引、分類具備基本利用價值信息廣泛采集數量大價值低數據“海量”時代的到來信息匱乏信息爆炸新浪搜狐網易信息搜索百度深度挖掘海量媒體網站的未來將互聯網的
數據轉換為情報/知識
情報/知識轉換為決策
決策轉換為利潤
將媒體網站建成
安全網、誠信網、綠色網謝謝!演講完畢,謝謝觀看!內容總結主講人:周富秋博士。CNNIC的最新報告顯示,截止今年6月30日,我國網民規模、寬帶網民數、國家頂級域名注冊量三項指標持續穩居世界第一,其中:。網民規模達3.38億,較去年底增長13.4%。寬帶網民規模達3.2億,占總網民數的94.3%。手機上網用戶達1.55億,半年內增長了32.1%。互聯網每天的點擊數有1000億次。全球所有的網頁之間有55萬億個連接。互聯網中有10億個芯片。互聯網上每秒產生的流量有7TB之多。數據累積量急劇增長、大量有價值的信息被淹沒,呈現“信息過剩
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論