移動搜索關鍵技術_第1頁
移動搜索關鍵技術_第2頁
移動搜索關鍵技術_第3頁
移動搜索關鍵技術_第4頁
移動搜索關鍵技術_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、移動搜索關鍵技術The Key Technology Of Mobile Search(華中科技大學電子與信息工程系,武漢430074)摘要:移動搜索是搜索引擎技術向無線網絡的拓展,利用先進的移動通信技術在移動終端上實現搜索引擎 系統。隨著移動終端的普及以及3G時代的來臨,移動搜索技術逐漸步入人們的視野,并成為人類獲取信 息的重要工具之一,極大的方便了人們的日常學習生活。本文簡單介紹了現有的一些移動搜索業務以及移 動搜索的幾種關鍵技術,希望能夠幫助讀者更為簡單直接地了解移動搜索。關鍵詞:移動搜索;垂直搜索;綜合搜索Abstract: Mobile search is an expansion

2、of search engine technology in wireless networks. It uses advanced mobile communication technology to implement the search engine system on the mobile terminals. With the popularity of the mobile terminals and the coming of 3G era ,mobile search technology has gradually stepped into humans vision .

3、The new technology is becoming one of the most important tools for people to access the information . Of course ,it makes people5 s daily life more convenient. This article has briefly described some of the existing mobile search service, as well as several key technology of mobile search. However,

4、I hope it can help the readers to understand mobile search more simply and directly.Key words: mobile search ; vertical search ; comprehensive search移動搜索概述隨著科技的高速發展,信息的迅速膨脹,手機已經成為了信息傳遞的主要設備之一。尤 其是近年來手機技術的不斷完善和功能的增加,利用手機上網也以成為一種獲取信息資源的 主流方式。在這一背景下,移動搜索的概念應運而生,國內外不少互聯網公司均看好移動搜 索這一領域。雅虎,Google,百度等傳統搜索引

5、擎也都相繼推出了基于短信和WAP的移動 搜索服務。毫無疑問,移動搜索將成為未來人們獲取信息的主要工具之一。移動搜索的基本定義移動搜索基本定義:移動搜索是指用戶在移動通信網絡中,通過移動終端,利用SMS, WAP, IVR等多種特定的搜索方式獲取所需信息的搜索行為。而移動搜素的核心是將搜索 引擎與移動設備有機結合,生成符合產品和用戶特點的搜索結果。移動搜索的分類1)依據搜索引擎的分類:基于瀏覽器的移動搜索:現代手機里面都內置了類似網頁瀏覽器的微瀏覽器(如UC瀏 覽器等), 手機用戶可以通過微瀏覽器來連接互聯網。基于短信的移動搜索:移動搜索引擎通過短信接收用戶的查詢請求,然后將查詢結果通 過短信的

6、形式返回給用戶。這種方式可以被所有手機用戶所接受,但是,短信的信息表現能 力很差,提供的信息也非常有限。短信與微瀏覽器相結合的移動搜索:用戶可以使用移動搜索服務商的客戶端提交查詢請 求,客戶端會根據用戶的檢索行為去選擇以微瀏覽器或者短信方式返回查詢結果。2)依據搜索內容的分類綜合搜索:類似于互聯網搜索,用戶通過編輯短信或鍵入關鍵詞進入WAP或直接接入 WEB網絡,對WAP或WEB網絡上的內容進行搜索,搜索引擎根據一定的規則將內容結果 與鏈接結果反饋給用戶終端。這種搜索模式可以看作是互聯網搜索直接延伸到手機平臺上的 移動搜索模式。垂直搜索:指用戶通過多種接入方式(短信,彩信,WAP,IVR等)提

7、出搜索特定類 型的內容或服務的搜索請求,例如一些音樂,圖片或本地信息等。這樣的搜索模式可以使用 戶進行個性化的搜索定制,更加快速的得到自己需要的信息,此模式的搜索引擎可以更好的 理解用戶的搜索請求,提高搜索的的針對性和準確性。現有移動搜索業務1)AQA應答搜索:AQA全稱Any Question Answered,該服務可以為用戶提供各種問題的 答案,將計算機的自動化搜索和人工搜索很好地整合起來,從而為用戶服務。該服務由 英國手機運營服務商Orange等推出,每回答一個問題,用戶需支付1.76英鎊的費用。2)比價搜索:用戶通過向服務提供商發送商品名,就回收到該商品各零售商的不同報價。3)位置搜

8、索:這項服務提供用戶想知道的位置信息,既可以是了解自己周圍的地圖又可以 是搜索他人的地理位置。4)“空中搜”:該業務具有搜索引擎與傳統黃頁兩種功能,是手機搜索引擎的商務版,能 在手機上搜索到全國大部分省市的企業、事業、政府機關、公共設施的相關信息。5)企業信息搜索,圖片搜索,音樂搜索,新聞搜索,游戲搜索等等移動搜索關鍵技術分析移動搜索引擎的基本原理與工作流程1) 綜合搜索綜合搜索實際上是互聯網搜索引擎在移動終端上的簡單延伸,其結構與通用搜索引擎是 一樣的,只是用戶訪問時將Web頁面轉換為WAP頁面。(a)手機進行互聯網搜索的結構示意圖用戶A網頁轉換A 用戶A網頁轉換A ?卜網頁數據庫在索引數據

9、庫(b) WAP搜索結構示意圖2)垂直搜索(c(c)垂直搜索結構示意圖垂直搜索是針對某一行業的專業搜索引擎,是對網頁庫中的某類專門的信息進行一次 整合,定向分字段抽取需要的數據進行處理后再以某種形式返回給用戶。垂直搜索的關鍵在 于對網頁信息進行結構化信息抽取,即以結構化數據為最小單位,將這些數據存儲到數據庫, 進行進一步的加工處理:去重,分類,分詞,索引,最后以搜索的方式滿足用戶的需求。結構化信息抽取技術結構化信息抽取技術主要應用于垂直搜索,將網頁中的非結構化的數據按照一定的需求 抽取成結構化的數據。結構化信息提取技術主要有兩種方式可以實現,模板方式和網頁庫結 構化信息抽取。模板方式:該方式是

10、對特定的網頁進行模板配置,抽取模板內設置好的需要的信息,可 以針對有限個網站進行精確的信息采集。該方式簡單,精確,技術難度低且方便部署。但是, 該方式需要針對每一個信息源的網站模板進行單獨的設定,在信息源多樣性的情況下,維護 量巨大。所以這種方式適合少量信息源的信息處理,不是搜索引擎級的應用,很難滿足用戶 對查全率的需求。網頁庫結構化抽取:該方式是采取頁面結構分析與智能節點分析轉換的方法,自動抽取 結構化的數據。對任意的正常網頁進行抽取,完全自動化,不用對具體網站事先生成模板, 對每個網頁自動實時得生成抽取規則,完全不需要人工干預。智能抽取準確率高,不是機械 的匹配,采用智能分析技術,準確率能

11、達到98%以上。能保證較快處理速度,由于采用頁 面的智能分析技術,先去除了垃圾塊,降低分析的壓力,是處理速度大大提高。通用性較好, 易于維護,只需設定參數、配置相應的特征就能改進相應的抽取性能;一般的非專業人員經 過簡單培訓就能維護。缺點是技術難度高,前期研發成本高,周期長。比較適合網頁庫級別 的結構化數據采集和搜索的高端應用。2.3.信息過濾技術信息過濾技術是根據用戶的興趣或偏好自動地收集和用戶相關的信息并推薦給用戶的 過程。信息過濾即所謂的信息選擇性傳播,該技術關注的是用戶的長期需求。信息過濾技術 期望為用戶處理大量的信息,對動態的信息流進行篩選,著重于排除用戶不希望得到的信息, 基于用戶

12、模板從輸入的信息流中濾掉數據。在信息過濾中,用戶的需求表示成用戶模板,一 個模板是一個數據結構,通常包括一組用于描述用戶興趣的主題。對進入系統的信息依據模 板進行評價,同時將評價結果返回給用戶,用戶在瀏覽結果時提供反饋信息并及時更新模板。 1)信息過濾系統的基本組成:信息分析器,用戶模板,過濾過程和學習過程。信息分析器:負責從信息源獲得信息,對信息進行分析并用適當的格式描述,然后作為輸入 信息傳遞給過濾處理模塊,并對該信息進行過濾,只將相關信息傳遞給用戶。用戶模板:用戶模板負責從用戶那收集與其感興趣的信息有關的顯性以及隱形的各種信息, 并將這些信息作為過濾處理模塊的輸入信息。過濾過程:過濾處理

13、模塊利用描述信息與用戶模板匹配,決定將要傳送給用戶的相關項。 學習過程:用戶會評價剩余信息的相關性,該評價會被反饋到學習部分,學習部分會根據這 些反饋信息更新用戶模板。(d)信息過濾系統基本構成2)信息過濾模型:信息過濾中的一個關鍵步驟是信息與用戶模板的匹配,用戶模板與信息 匹配常用的模型有布爾模型,向量空間模型,潛在語義索引模型,概率模型,神經網絡模型。每種模型首先要解決用戶模板與信息的表示問題,然后在某種表示的基礎上才能進行用 戶模板和信息的相似性的比較,然后再根據相似性的大小選出和用戶模板匹配的信息傳遞給 用戶。信息有多種格式,為了方便計算機處理,布爾模型和向量空間用索引項描述信息的內

14、容。一個索引項可以是一個單詞或是一個短語,不同形式的一條信息統稱為一個信息項,這 樣,一個信息項可以表示為多個索引項的集合。對一個信息項建立索引的過程叫做標引或索 引。用戶興趣智能代理在互聯網上實現用戶偏好的記憶和儲存主要有兩種辦法,一種是將用戶興趣信息存儲 搜索引擎的服務器上,另一種是將用戶的興趣信息存儲在用戶的個人機器上。在移動互聯網 中,一般一個手機只被一個用戶使用,所以可以將用戶信息保存在本機,既不會泄露隱私也 不會發生一機多戶導致興趣記錄紊亂的情況。用戶興趣代理就是信息過濾系統基于搜索引擎 的實現載體。用戶興趣代理的主要作用:1)負責用戶模板的建立和更新,每次用戶登錄時,如果用戶模板

15、不存在,那么用戶模板生 成算法會自動生成一個新的用戶模板。2)與用戶的交互,用戶興趣代理接收用戶的反饋,利用更新算法對用戶模板更新。3)對搜索結果進行過濾Web頁面向WAP頁面的轉換技術移動用戶通進入WAP頁面來訪問Web頁面,由于現在Web頁面和主要是由HTML標 記語言,內容十分豐富,而WAP頁面僅限于手機顯示,支持的元素遠不如HTML文檔豐富。 直接的標記語言轉換會出現某些HTML中的標簽在WAP中沒有相對應的標簽的問題,所以 需要先對Web頁面進行一些預處理,然后進行標記語言轉換。1)網頁元素的解析及處理:給定一篇HTML網頁,順序整理出容器標簽就可以得到對應的標簽樹框架。而后,整理

16、每個內容塊(對應標簽樹上的一個節點)中的超鏈標簽、圖片標簽、重要信息標簽,并在標 簽樹中對應的節點記錄下來,這樣既有構造出了一顆基本的標簽樹。對上述標簽樹信息做適 當的分析、整理就可以得到內容分析過程中需要的一些描述信息。在得到網頁的標簽樹后,就可以對取舍哪些標簽和內容作出具體分析了,根據WAP標 簽元素與Web標簽元素的對等關系,將沒有對等關系的標簽刪除。在進行以上處理后,應 該對頁面的布局重新調整。2)標記語言轉換技術一般來說會按照HTML,XHTML,WML的順序對標記語言進行轉換,主要是考慮了如下 幾個原因:XHTML與WML同為需要轉換出的語言,將XHTML作為轉換的中間步驟,不 僅

17、可以方便XML的轉換,還可以作為轉換結果直接輸出。XHTML與WML都符合XML 的語言規范,嚴格的語法帶來了轉換的便利性。需要轉換的頁面是經過信息過濾以后的,僅 僅剩下文字和鏈接的頁面,這就不需要在轉換時對頁面元素做過多的處理了。元搜索引擎元搜索引擎即為將用戶的查詢請求同時發給多個獨立的搜索引擎,然后通過對這些搜 索引擎的返回結果進行匯集、篩選、刪并等優化處理后,以統一的格式在界面中集中顯示。 搜索引擎是為彌補傳統搜索引擎的不足而出現的一種輔助檢索工具,有著傳統搜索引擎所不 具備的許多優勢。但是,元搜索引擎依賴于數據庫選擇技術、文本選擇技術、查詢分派技術 和結果綜合技術等。用戶界面的改進、調

18、用策略的完善、返回信息的整合以及最終檢索結果 的排序,仍然是未來元搜索引擎研究的重點。(e)元搜索引擎結構圖移動搜索的發展前景移動搜索是搜索技術發展的必然結果,通過手持設備或移動終端平臺,將搜索無線化、 移動化,將為長期依賴于互聯網的搜索引擎服務的手機用戶,提供兼具WAP、Web等多樣 性的搜索產品。互聯網搜索帶來的是海量的信息,而移動搜索的主旨確實盡量帶給用戶準確 的信息。綜合搜索在移動搜索所提供的服務中,其適合用戶體驗的需求是相對較弱的,因為 綜合搜索難以滿足用戶對信息簡潔、及時、準確的要求特點,綜合搜索的需求將遠不如垂直 搜索。目前,影響移動搜索的積極因素主要有:廣闊的市場前景,幾乎所有的手機移動用戶都 可以看做是移動搜索業務的潛在客戶。移動搜索打破了電腦的線纜約束,讓用戶能通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論