您必须将 robots.txt 文件放在网站的顶级目录中,并为其使用支持的协议。和其他网址一样,robots.txt 文件的网址也区分大小写。就 Google 搜索而言,支持的协议包括 HTTP、HTTPS 和 FTP。使用 HTTP 和 HTTPS 协议时,抓取工具会使用 HTTP 无条件 GET
请求来提取 robots.txt 文件;使用 FTP 时,抓取工具会使用标准 RETR (RETRIEVE)
命令,并采用匿名登录方式。
robots.txt 文件中列出的规则只适用于该文件所在的主机、协议和端口号。
下表列出了 robots.txt 网址及其适用的网址路径的示例。 第一列包含 robots.txt 文件的网址,第二列包含 robots.txt 文件将适用及不适用的网域。
robots.txt 网址示例 | |
---|---|
https:/ | 这属于一般情况。该网址对其他子网域、协议或端口号来说无效。对同一个主机、协议和端口号上的所有子目录中的所有文件有效。 适用于:
|
https:/ | 子网域上的 robots.txt 仅对该子网域有效。 适用于: 不适用于:
|
https:/ | 不是有效的 robots.txt 文件。抓取工具不会检查子目录中的 robots.txt 文件。 |
https:/ | IDN 等同于其对应的 punycode 版本。 适用于:
不适用于: |
ftp:/ | 适用于: 不适用于: |
https:/ | 以 IP 地址作为主机名的 robots.txt 只在抓取作为主机名的该 IP 地址时有效。该 robots.txt 文件并不会自动对该 IP 地址上托管的所有网站有效,但该文件可能是共享的,在此情况下,它也可以在共享主机名下使用。 适用于: 不适用于: |
https:/ | 标准端口号(HTTP 为 适用于:
不适用于: |
https:/ | 非标准端口号上的 robots.txt 文件只对通过这些端口号提供的内容有效。 适用于: 不适用于: |
在请求 robots.txt 文件时,服务器响应的 HTTP 状态代码会影响 Google 抓取工具使用 robots.txt 文件的方式。下表总结了 Googlebot 针对各种 HTTP 状态代码处理 robots.txt 文件的方式。
错误处理和 HTTP 状态代码 | |
---|---|
2xx (success) | 表示成功的 HTTP 状态代码会提示 Google 抓取工具处理服务器提供的 robots.txt 文件。 |
3xx (redirection) | Google 会按照 RFC 1945 的规定跟踪至少五次重定向,然后便会停止,并将其作为 robots.txt 的 Google 不会跟踪 robots.txt 文件中的逻辑重定向(框架、JavaScript 或元刷新型重定向)。 |
4xx (client errors) | Google 抓取工具会将所有 |
5xx (server errors) | 由于服务器无法对 Google 的 robots.txt 请求提供明确响应,因此 Google 会暂时将服务器错误 如果您需要暂停抓取,建议为网站上的每个网址提供 如果我们能够确定,某网站因为配置不正确而在缺少网页时返回 |
其他错误 | 对于因 DNS 或网络问题(例如超时、响应无效、重置或断开连接、HTTP 组块错误等)而无法抓取的 robots.txt 文件,系统在处理时会将其视为服务器错误。 |