




已閱讀5頁,還剩1頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
robots.txt文件的作用和語法介紹1、什么是robots.txt文件 搜索引擎有自己的搜索習慣,當它對一個網站進行搜索時,哪些目錄和文件要看,哪些不用看,它有自己的算法。我們也可以自己建立一個robots.txt文件,告訴搜索引擎的機器人哪些可以被收錄,哪些不需要收錄。這樣可以節約自己網站的資源,提高被搜索引擎收錄的效率。、robots.txt放置位置 robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。、robots相關語法1)User-agent: 適用下列規則的漫游器(搜索引擎)該項的值用于描述搜索引擎robot的名字。在robots.txt文件中,如果有多條User-agent記錄,就說明有多個robot會受到robots.txt的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則對任何robot均有效。 Google爬蟲名稱: Googlebot 百度(Baidu)爬蟲名稱:Baiduspider 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp 有道(Yodao)蜘蛛名稱:YodaoBot 搜狗(sogou)蜘蛛名稱:sogou spider MSN的蜘蛛名稱(微軟最新搜索引擎Bing蜘蛛名也是這個):Msnbot )Disallow: 拒絕訪問的目錄或文件該項的值用于描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被robot訪問。 例如: Disallow:/seo.html 表示禁止robot訪問文件 /seo.html )Allow:允許訪問的目錄或文件該項的值用于描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL是允許robot訪問的。 例如: Allow:/hibaidu/ 表示允許robot訪問目錄 /hibaidu/ 4)使用通配符*和$: $ 匹配行結束符。* 匹配0或多個任意字符。? 匹配1個任意字符 5)robots.txt文件里還可以直接包括在sitemap文件的鏈接。Sitemap:/sitemap.xml4、robots.txt文件用法舉例 1)、攔截所有的機器人訪問網站User-agent:*Disallow:/ 2)、允許所有的機器人訪問網站User-agent:*Allow:/ 3)、禁止所有機器人訪問特定目錄:User-agent:*Disallow:/public/Disallow:/images/Disallow:/temp/Disallow:/include/ 4)、禁止特定搜索引擎蜘蛛訪問特定目錄(這里我們以百度蜘蛛為例說明)User-agent:BaiduspiderDisallow:/test/ 上面的robots.txt語法示例的意思是禁止百度蜘蛛爬行根目錄下的test目錄 5)、僅禁止Baiduspider抓取.jpg格式圖片User-agent:BaiduspiderDisallow:.jpg$ 6)、僅允許訪問以.htm為后綴的URL。 User-agent: * Allow: .htm$ Disallow: / 7)、禁止訪問網站中所有的動態頁面 User-agent: * Disallow: /*?*5、常見robots.txt錯誤 1)、把多個禁止命令放在一行中: 錯誤地寫法 Disallow: /css/ /cgi-bin/ /images/ 正確的寫法 Disallow: /css/ Disallow: /cgi-bin/ Disallow: /images/ 2)、表示目錄時,忘記了斜杠/ 錯誤的寫法 User-agent: Baiduspider Disallow: css 正確的寫法 User-agent: Baiduspider Disallow: /css/6、robots meta網頁標簽寫法Robots META標簽則主要是針對一個個具體的頁面。和其他的META標簽(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots META標簽也是放在頁面的head/head中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。Robots META標簽的寫法:Robots META標簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對某個具體搜索引擎寫為name=”BaiduSpider”。 content部分有四個指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。INDEX 指令告訴搜索機器人抓取該頁面;FOLLOW 指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去;Robots Meta標簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對于它,缺省值是INDEX,NOFOLLOW。這樣,一共有四種組合:META NAME=ROBOTS CONTENT=INDEX,FOLLOWMETA NAME=ROBOTS CONTENT=NOINDEX,FOLLOWMETA NAME=ROBOTS CONTENT=INDEX,NOFOLLOWMETA NAME=ROBOTS CONTENT=NOINDEX,NOFOLLOW其中META NAME=ROBOTS CONTENT=INDEX,FOLLOW可以寫成META NAME=ROBOTS CONTENT=ALL;META NAME=ROBOTS CONTENT=NOINDEX,NOFOLLOW可以寫成META NAME=ROBOTS CONTENT=NONE目前看來,絕大多數的搜索引擎機器人都遵守robots.txt的規則,而對于Robots META標簽,目前支持的并不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令“archive”,可以限制GOOGLE是否保留網頁快照。例如:META NAME=googleb
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 六一創業活動方案
- 六一活動國學策劃方案
- 六一活動跳舞活動方案
- 六一班會活動方案
- 六一美發店活動方案
- 六一節活動方案方案
- 六一適合小學生活動方案
- 六安海底撈活動方案
- 醫師證考試試題及答案
- 衣柜技能考試試題及答案
- 2025中考英語閱讀考點專項突破訓練:旅游(學生版+解析)
- 專利培訓試題及答案
- 國際工程投標管理制度
- 2025河南濮陽市南樂縣紀委監委招聘編外看護隊員筆試易考易錯模擬試題(共500題)試卷后附參考答案
- 納米技術在靶向藥物delivery中的創新應用-洞察闡釋
- 口譯人員保密協議書
- 2025江西中考:歷史高頻考點
- 品控考試題及答案
- 船舶消防知識試題及答案
- 專題08 文學作品閱讀(必考題型梳理)60題(原卷版)-2023-2024學年八年級語文下學期期中專題復習(浙江專用)
- 微生物檢驗數據記錄與管理試題及答案
評論
0/150
提交評論