關於網址受到robots.txt的限制!

今日訪進谷歌網站管理工具查看軟問吧,突然發現受robots.txt限制頁面106個,進軟問吧-找軟件論壇看,發現限制了很多目錄。
關於這個robots.txt,此文件為一純文本文件,放置於網站根目錄下,其作用就是聲明不被搜索引擎或者說蜘蛛抓去的目錄。
搜索引擎抓取網站時首先檢測有沒有robots.txt,如果有就確定抓取範圍,沒有就按鏈接順序抓取。
範例robots.txt文件(discuz7.0官方robots.txt文件http://www.discuz.net/robots.txt):
#
# robots.txt for Discuz! Board
# Version 7.0.0
#
User-agent: *
Disallow : /admin/
Disallow: /api/
Disallow: /attachments/
Disallow: /images/
Disallow: /install/
Disallow: /forumdata/
Disallow: /include/
Disallow: /ipdata/
Disallow: /modcp/
Disallow: /templates/
Disallow : /plugins/
Disallow: /wap/
Disallow: /uc_client/
Disallow: /uc_server/
Disallow: /admincp.php
Disallow: /ajax.php
Disallow: /logging.php
Disallow: /member.php
Disallow: /memcp.php
Disallow: /misc. php
Disallow: /my.php
Disallow: /pm.php
Disallow: /post.php
Disallow: /register.php
Disallow: /rss.php
Disallow: /search.php
Disallow: /seccode.php
Disallow: /topicadmin.php
Disallow : /space.php
Disallow: /modcp.php

對此文件的簡單解釋:
1.#後面為註釋行,可以隨意寫。
2.User-agent是一種特定的搜索引擎漫遊器後面的*代表所有搜索引擎,如果是Googlebot就代表Google網頁搜索,如果是Baiduspider就代表千度網頁抓取,其他代表見網路漫遊器數據庫。
3.Disallow則表示不允許訪問的目錄,allow表示允許訪問的目錄。
最簡單的robots.txt文件使用兩條規則:

User-agent:應用以下規則的漫遊器
Disallow:要攔截的網址
這兩行會視為文件中的一個條目。您可根據需要加入任意多個條目。您可在一個條目中加入多個Disallow行和多個User-agent。

User-agent是一種特定的搜索引擎漫遊器。網路漫遊器數據庫列出了許多常用的漫遊器。您可以將某一條目設置為適用於某一特定漫遊器(以顯示名稱的方式列出)或適用於所有漫遊器(以標記為星號的方式列出)。適用於所有漫遊器的條目應為以下格式:
User-agent: *
Google使用多種不同的漫遊器(User-agent)。Google的網頁搜索所使用的漫遊器為Googlebot。Googlebot-Mobile和Googlebot-Image等其他漫遊器也會遵循您為Googlebot所設置的規則,但您也可以為這些特定的漫遊器設置特定的規則。
Disallow行列出的是您要攔截的網頁。您可以列出某一特定的網址或模式。條目應以正斜線(/)開頭。

要攔截整個網站,請使用正斜線。Disallow: /


要攔截某一目錄以及其中的所有內容,請在目錄名後添加正斜線。Disallow: /無用目錄/

要攔截某個網頁,請列出該網頁。Disallow: /私人文件.html

要從Google圖片搜索中刪除某張特定圖片,請添加以下內容: User-agent: Googlebot-ImageDisallow: /圖片/狗.jpg

要從Google圖片搜索中刪除您網站上的所有圖片,請使用以下內容: User-agent: Googlebot-ImageDisallow: /

要攔截某一特定文件類型的文件(例如.gif),請使用以下內容: User-agent: GooglebotDisallow: /*.gif$

要阻止抓取您網站上的網頁,而同時又能在這些網頁上顯示Adsense廣告,請禁止除Mediapartners-Google以外的所有漫遊器。這樣可使網頁不出現在搜索結果中,同時又能讓Mediapartners-Google漫遊器分析網頁,從而確定要展示的廣告。Mediapartners-Google漫遊器不與其他Google User-agent共享網頁。例如:
User-agent: *
Disallow: /文件夾1/
User-agent: Mediapartners-Google
Allow: /文件夾1/

請注意,指令區分大小寫。例如,Disallow: /no.htm會攔截http://www.ruanwen8.com/no.htm,但卻會允許http://www.ruanwen8.com/No.htm。
Googlebot(但並非所有搜索引擎)遵循某些模式匹配原則。

要匹配連續字符,請使用星號(*)。例如,要攔截對所有以private開頭的子目錄的訪問,請使用以下內容:
User-agent: Googlebot
Disallow: /private*/

要攔截對所有包含問號(?)的網址的訪問(具體地說,這種網址以您的域名開頭、後接任意字符串,然後接問號,而後又接任意字符串),請使用以下內容:
User-agent: Googlebot
Disallow: /*?

要指定與某個網址的結尾字符相匹配,請使用$。例如,要攔截以.xls結尾的所有網址,請使用以下內容: User-agent: Googlebot
Disallow: /*.xls$
您可將此模式匹配與Allow指令配合使用。例如,如果?代表一個會話ID,那麼您可能希望排除包含?的所有網址,以確保Googlebot不會抓取重複網頁。但是以?結尾的網址可能是您希望包含在內的網頁的版本。在此情況下,您可以對您的robots.txt文件進行如下設置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: /*?指令會阻止包含?的所有網址(具體地說,它將攔截所有以您的域名開頭、後接任意字符串,然後接問號,而後又接任意字符串的網址)。
Allow: /*?$指令將允許以?結尾的任何網址(具體地說,它將允許所有以您的域名開頭、後接任意字符串,然後接?,?之後不接任何字符的網址)。

以上多數都是Google的http://www.google.com/support/we ... tw&answer=40360,千度的大同小異具體可以看http://www.baidu.com/search/robots.html
PS:一般網站查看robots.txt文件的方法是主頁後面加robots.txt就可以,比如淘寶網的就是http://www.taobao.com/robots.txt
請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
分類