18禁黄无遮挡免费网站动漫_日本 欧美 亚洲 另类_91sex国产_免费h在线观看视频网站

天蠶在你身邊

不方便打電話?讓天蠶聯(lián)絡(luò)你

我們存在,我們思索,我們不斷進(jìn)取首頁 >> 資訊 >> 網(wǎng)站建設(shè)行業(yè)新聞
重慶網(wǎng)絡(luò)公司:robots.txt的語法


  什么是 robots.txt ?
         robots.txt 是一個(gè)純文本文件,通過在這個(gè)文件中聲明該網(wǎng)站中不想被 robots 訪問的部分,這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。 當(dāng)一個(gè)搜索機(jī)器人訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在 robots.txt ,如果找到,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍,如果該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。 robots.txt 必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫。 網(wǎng)站 URL相應(yīng)的 robots.txt 的 URL

  • http://www.w3.org/
  • http://www.w3.org/robots.txt
  • http://www.w3.org:80/
  • http://www.w3.org:80/robots.txt
  • http://www.w3.org:1234/
  • http://www.w3.org:1234/robots.txt
  • http://w3.org/
  • http://w3.org/robots.txt


  robots.txt 的語法
"robots.txt" 文件包含一條或更多的記錄,這些記錄通過空行分開(以 CR,CR/NL, or NL 作為結(jié)束符),每一條記錄的格式如下所示:
"<field>:<optionalspace><value><optionalspace>" 。 在該文件中可以使用 # 進(jìn)行注解,具體使用方法和 UNIX 中的慣例一樣。該文件中的記錄通常以一行或多行 User-agent 開始,后面加上若干 Disallow 行 , 詳細(xì)情況如下:
User-agent:

  • 該項(xiàng)的值用于描述搜索引擎 robot 的名字,在 "robots.txt" 文件中,如果有多條 User-agent 記錄說明有多個(gè) robot 會(huì)受到該協(xié)議的限制,對該文件來說,至少要有一條 User-agent 記錄。如果該項(xiàng)的值設(shè)為 * ,則該協(xié)議對任何機(jī)器人均有效,在 "robots.txt" 文件中, "User-agent : *" 這樣的記錄只能有一條。

Disallow :

  • 該項(xiàng)的值用于描述不希望被訪問到的一個(gè) URL ,這個(gè) URL 可以是一條完整的路徑,也可以是部分的,任何以 Disallow 開頭的 URL 均不會(huì)被 robot 訪問到。例如 "Disallow: /help" 對 /help.phpl 和 /help/index.phpl 都不允許搜索引擎訪問,而 "Disallow: /help/" 則允許 robot 訪問 /help.phpl ,而不能訪問 /help/index.phpl 。
  • 任何一條 Disallow 記錄為空,說明該網(wǎng)站的所有部分都允許被訪問,在 "/robots.txt" 文件中,至少要有一條 Disallow 記錄。如果 "/robots.txt" 是一個(gè)空文件,則對于所有的搜索引擎 robot ,該網(wǎng)站都是開放的。

下面是一些 robots.txt 基本的用法:
     l 禁止所有搜索引擎訪問網(wǎng)站的任何部分:

  • User-agent: *
  • Disallow: / l 允許所有的 robot 訪問
  • User-agent: *
  • Disallow:
  • 或者也可以建一個(gè)空文件 "/robots.txt" file l 禁止所有搜索引擎訪問網(wǎng)站的幾個(gè)部分(下例中的 cgi-bin 、 tmp 、 private 目錄)
  • User-agent: *
  • Disallow: /cgi-bin/
  • Disallow: /tmp/
  • Disallow: /private/ l 禁止某個(gè)搜索引擎的訪問(下例中的 BadBot )
  • User-agent: BadBot
  • Disallow: / l 只允許某個(gè)搜索引擎的訪問(下例中的 WebCrawler )
  • User-agent: WebCrawler
  • Disallow: User-agent: *
  • Disallow: /


重慶網(wǎng)絡(luò)公司


地址:重慶市渝中區(qū)上清寺鑫隆達(dá)B座28-8

郵編:400015

電話:023-63612462

EMAIL:cnjl_net@163.com

渝ICP備09007657號-6

渝公網(wǎng)安備 50010302000872號