web搜索引擎優化技術之搜索引擎的定義.doc_第1頁
web搜索引擎優化技術之搜索引擎的定義.doc_第2頁
web搜索引擎優化技術之搜索引擎的定義.doc_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

隨著網絡技術的迅速發展,萬維網成為巨量信息的載體,如何有效地檢索和利用這些信息成為巨大挑戰。在未知鏈接地址時,用戶要在這種信息海洋里查找信息無異于大海撈針。搜索引擎(Search Engine)技術應勢而生,成功地解決了這一難題。搜索引擎為用戶提供信息檢索服務,作為輔助人們檢索信息的工具,是在Web上發現信息的關鍵技術,是用戶訪問萬維網的最佳入口。根據權威調查顯示,搜索引擎的導航服務已成為非常重要的互聯網服務,全球80的網站,其訪問量70-90都來自于搜索引擎,因此,讓搜索引擎收錄更多的網頁,就是提高網站訪問量的最有效辦法。搜索引擎借助于自動搜索網頁的軟件,在網絡上通過各種鏈接獲得大頁面文檔的信息,并按照一定算法與規則進行歸類整理,形成文檔索引數據庫,以備用戶查詢。提供這種服務的網站便是“搜索引擎”。搜索引擎收集因特網上數以十億計的Web文檔,并對其每術語即關鍵詞進行索引,建立索引數據庫,當用戶查找某個關鍵詞的時候,所有在包含該關鍵詞的文檔都將作為搜索結果羅列出來。這些結果將按照與搜索關鍵詞的相關度高低,依次排列顯示。搜索引擎搜索和收集的Web文檔類型有HTML、PDF、博客、FTP文件、圖片、字處理文檔(Word、PPT)、多媒體文件等。本文主要涉及頁面或Web文檔。商業運作成功的著名搜索引擎有Google、Yahoo、MSN, Ask Jeeves和百度等。1.1.1 搜索引擎的工作原理搜索引擎有兩個重要組成部分,即離線部分和在線部分。離線部分由搜索引擎定期執行,包括下載網站的頁面集合,并經處理把這些頁面轉換成可搜索的索引。在線部分在用戶查詢時被執行,根據與用戶需求的相關性,利用索引去選擇候選文檔并排序顯示。搜索引擎的原理基于三段式工作流程,即搜集,預處理,提供服務。它以一定的策略在互聯網中發現和搜集信息,對信息進行處理和組織,以便為用戶提供檢索服務,從而起到信息導航的目的。因此,搜索引擎的工作原理包括搜索引擎收錄頁面、建立索引和向用戶提供查詢服務等。1 網頁搜集搜索引擎使用軟件按某種策略自動獲取文檔,軟件名稱不同,如Robot、Spider、crawler,Wanderer等。Robot直譯為機器人,crawler直譯為爬行器,spider直譯為網絡蜘蛛,Wanderer直譯為漫游器,它們是搜索引擎用來抓取網頁的工具或自動程序。著名搜索引擎的探測器(Robot):谷歌的為googlebot,百度的為baiduspider,MSN的為MSNbot,Yahoo的為Slurp。搜索引擎將檢索首頁,并根據其中的鏈接去搜索網站其它頁面。搜索引擎從Web中抓取頁面的過程如同蜘蛛(spider)在蜘蛛網(Web)上爬行(crawl),被稱為Web crawling或Spidering。搜索引擎要從互聯網上抓取網頁,利用其Spider(蜘蛛)自動訪問互聯網,并沿著網頁中的URL爬到其它網頁。搜索引擎將Web看作是一個有向圖: 搜集過程從初始網頁的URL開始,找出其中所有URL并放入隊列中; 根據搜索策略從隊列中選擇下一步要抓取的網頁URL; 重復上述過程直到滿足系統的停止條件。 網頁抓取策略分為深度優先、廣度優先和最佳優先三種。深度優先在很多情況下會導致蜘蛛的陷入(trapped)問題,目前常見的是廣度優先和最佳優先方法。Web有兩個重要特征:信息海量和更新頻率快,這使得Web crawling極其困難。巨量信息意味著在給定時間蜘蛛只能下載部分Web頁面,這需要蜘蛛有針對性地下載。快速的更新頻率意味著蜘蛛在下載某個網站的最后一個頁面時,說不定前面下載的頁面已經被更新了。Crawling Web在某些程度上相似于在晴空萬里的夜間觀望天空,你所看到的只是群星在不同時刻狀態的反映,因它們的距離不一。蜘蛛所獲取的頁面集合也非Web的快照,因這不代表任一時刻的Web。如今,網絡速度雖然有所提高,但仍然滿足不了處理速度和存儲容量的要求。因此,搜索引擎的Spider一般要定期重新訪問所有網頁,時間間隔因搜索引擎和目標網頁而異,以便更新索引數據庫,比較真實地反映出網頁內容的更新情況,如增加新網頁信息,去除死鏈接,并根據網頁內容和鏈接關系的變化重新排序。從而使得網頁的具體內容及其變化情況比較準確地體現在用戶的查詢結果中。2 預處理預處理旨在為收集到的Web文檔建立邏輯視圖。在傳統的信息檢索中,文檔邏輯視圖是“bag of words”模型,即文檔被視同為一些單詞的無序集合。而在Web搜索引擎中,這種視圖被逐步擴展了,如用詞頻、權重、Web文檔的元信息、文檔的權威性和使用情形等。搜索引擎要處理蜘蛛所搜索到的信息,從中抽取出索引項,以便用戶檢索,索引項分為: 內容性索引項 元數據索引項,指文檔的作名、URL、更新時間、編碼、長度等 搜索引擎要給索引項賦于權值,以表示該索引項對文檔的貢獻程度,用于計算查詢結果的相關性。然后用索引項建立索引表。索引表一般使用某種形式的倒排表(Inversion List)。倒排表由兩部分組成:詞匯及其位置列表。詞匯是所有關鍵詞的排序列表,對于詞匯中的每個關鍵詞,其在文檔集中的出現的“位置”列表。3 查詢服務搜索引擎為用戶提供查詢界面,以便用戶通過瀏覽器提交待查詢的詞語或短語。當用戶輸入關鍵詞后,搜索系統程序從索引數據庫中找到符合該關鍵詞的所有相關網頁,并根據網頁針對該關鍵詞的相關性排序,相關性越高,排名越靠前。然后很快返回與用戶輸入內容相關的信息列表,該列表中的每一條目代表一篇網頁,至少有3個元素,即網頁的標題、地址和摘要。相關性(Relevance)體現著用戶查詢與查詢結果文檔的匹配程度。 泰州市君悅信息技術有限公司 是一家專業從事互聯網網站建設/推廣/維護服務的企業。 主要業務為企業提供專業化的網站建設一條龍技術服務,范圍包括:企業網站策劃、泰州網頁設計、泰州網站建設、畫冊名片LOGO設計、泰州百度、泰州網站優化、域名注冊、企業網維護、泰州阿里巴巴誠信通以及泰州阿里巴巴托管外包、通用網址注冊、中文域名注冊、企業集團郵箱提供等。 已成功實施:一般性企業、食品、化妝品、機械制造、政府、教育、IT、醫療、法律、 汽貿、化工、房地產、輕工、外貿、生產性企業等多個行業,客戶超過800家,我們正努力為更多的客戶進行優質實用高效的網絡營銷及相關服務。 公司堅持走專業化發展道路,力求在網站建設推廣方面做得更精、更細、更好,保證產品的質量和客戶的滿意度,公司以為客戶提供最好的網絡營銷服務為目標,根據技術服務需要經常跟蹤的特點,建立了完善的售前售后服務系統。并根據客戶的實際情況,提供全程上門服務,客戶只需要撥打一個電

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論