重慶網(wǎng)絡(luò)公司:robots.txt的語法
什么是 robots.txt ?
robots.txt 是一個(gè)純文本文件,通過在這個(gè)文件中聲明該網(wǎng)站中不想被 robots 訪問的部分,這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。 當(dāng)一個(gè)搜索機(jī)器人訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在 robots.txt ,如果找到,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍,如果該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。 robots.txt 必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫。 網(wǎng)站 URL相應(yīng)的 robots.txt 的 URL
- http://www.w3.org/
- http://www.w3.org/robots.txt
- http://www.w3.org:80/
- http://www.w3.org:80/robots.txt
- http://www.w3.org:1234/
- http://www.w3.org:1234/robots.txt
- http://w3.org/
- http://w3.org/robots.txt
robots.txt 的語法
"robots.txt" 文件包含一條或更多的記錄,這些記錄通過空行分開(以 CR,CR/NL, or NL 作為結(jié)束符),每一條記錄的格式如下所示:
"<field>:<optionalspace><value><optionalspace>" 。 在該文件中可以使用 # 進(jìn)行注解,具體使用方法和 UNIX 中的慣例一樣。該文件中的記錄通常以一行或多行 User-agent 開始,后面加上若干 Disallow 行 , 詳細(xì)情況如下:
User-agent:
- 該項(xiàng)的值用于描述搜索引擎 robot 的名字,在 "robots.txt" 文件中,如果有多條 User-agent 記錄說明有多個(gè) robot 會(huì)受到該協(xié)議的限制,對該文件來說,至少要有一條 User-agent 記錄。如果該項(xiàng)的值設(shè)為 * ,則該協(xié)議對任何機(jī)器人均有效,在 "robots.txt" 文件中, "User-agent : *" 這樣的記錄只能有一條。
Disallow :
- 該項(xiàng)的值用于描述不希望被訪問到的一個(gè) URL ,這個(gè) URL 可以是一條完整的路徑,也可以是部分的,任何以 Disallow 開頭的 URL 均不會(huì)被 robot 訪問到。例如 "Disallow: /help" 對 /help.phpl 和 /help/index.phpl 都不允許搜索引擎訪問,而 "Disallow: /help/" 則允許 robot 訪問 /help.phpl ,而不能訪問 /help/index.phpl 。
- 任何一條 Disallow 記錄為空,說明該網(wǎng)站的所有部分都允許被訪問,在 "/robots.txt" 文件中,至少要有一條 Disallow 記錄。如果 "/robots.txt" 是一個(gè)空文件,則對于所有的搜索引擎 robot ,該網(wǎng)站都是開放的。
下面是一些 robots.txt 基本的用法:
l 禁止所有搜索引擎訪問網(wǎng)站的任何部分:
- User-agent: *
- Disallow: / l 允許所有的 robot 訪問
- User-agent: *
- Disallow:
- 或者也可以建一個(gè)空文件 "/robots.txt" file l 禁止所有搜索引擎訪問網(wǎng)站的幾個(gè)部分(下例中的 cgi-bin 、 tmp 、 private 目錄)
- User-agent: *
- Disallow: /cgi-bin/
- Disallow: /tmp/
- Disallow: /private/ l 禁止某個(gè)搜索引擎的訪問(下例中的 BadBot )
- User-agent: BadBot
- Disallow: / l 只允許某個(gè)搜索引擎的訪問(下例中的 WebCrawler )
- User-agent: WebCrawler
- Disallow: User-agent: *
- Disallow: /
重慶網(wǎng)絡(luò)公司