Google如何正确认识和使用robots.txt文件（收藏备用）

2024年11月14日李祁谷歌搜索指南次阅读

文件位置和有效范围

您必须将 robots.txt 文件放在网站的顶级目录中，并为其使用支持的协议。和其他网址一样，robots.txt 文件的网址也区分大小写。就 Google 搜索而言，支持的协议包括 HTTP、HTTPS 和 FTP。使用 HTTP 和 HTTPS 协议时，抓取工具会使用 HTTP 无条件 GET 请求来提取 robots.txt 文件；使用 FTP 时，抓取工具会使用标准 RETR (RETRIEVE) 命令，并采用匿名登录方式。

robots.txt 文件中列出的规则只适用于该文件所在的主机、协议和端口号。

有效 robots.txt 网址的示例

下表列出了 robots.txt 网址及其适用的网址路径的示例。第一列包含 robots.txt 文件的网址，第二列包含 robots.txt 文件将适用及不适用的网域。

robots.txt 网址示例
`https://example.com/robots.txt`	这属于一般情况。该网址对其他子网域、协议或端口号来说无效。对同一个主机、协议和端口号上的所有子目录中的所有文件有效。适用于： `https://example.com/` `https://example.com/folder/file` 不适用于： `https://other.example.com/` `http://example.com/` `https://example.com:8181/`
`https://www.example.com/robots.txt`	子网域上的 robots.txt 仅对该子网域有效。适用于： `https://www.example.com/` 不适用于： `https://example.com/` `https://shop.www.example.com/` `https://www.shop.example.com/`
`https://example.com/folder/robots.txt`	不是有效的 robots.txt 文件。抓取工具不会检查子目录中的 robots.txt 文件。
`https://www.exämple.com/robots.txt`	IDN 等同于其对应的 punycode 版本。适用于： `https://www.exämple.com/` `https://xn--exmple-cua.com/` 不适用于： `https://www.example.com/`
`ftp://example.com/robots.txt`	适用于： `ftp://example.com/` 不适用于： `https://example.com/`
`https://212.96.82.21/robots.txt`	以 IP 地址作为主机名的 robots.txt 只在抓取作为主机名的该 IP 地址时有效。该 robots.txt 文件并不会自动对该 IP 地址上托管的所有网站有效，但该文件可能是共享的，在此情况下，它也可以在共享主机名下使用。适用于： `https://212.96.82.21/` 不适用于： `https://example.com/`（即使托管在 `212.96.82.21` 上）
`https://example.com:443/robots.txt`	标准端口号（HTTP 为 `80`，HTTPS 为 `443`，FTP 为 `21`）等同于其默认的主机名。适用于： `https://example.com:443/` `https://example.com/` 不适用于： `https://example.com:444/`
`https://example.com:8181/robots.txt`	非标准端口号上的 robots.txt 文件只对通过这些端口号提供的内容有效。适用于： `https://example.com:8181/` 不适用于： `https://example.com/`

错误处理和 HTTP 状态代码

在请求 robots.txt 文件时，服务器响应的 HTTP 状态代码会影响 Google 抓取工具使用 robots.txt 文件的方式。下表总结了 Googlebot 针对各种 HTTP 状态代码处理 robots.txt 文件的方式。

错误处理和 HTTP 状态代码
`2xx (success)`	表示成功的 HTTP 状态代码会提示 Google 抓取工具处理服务器提供的 robots.txt 文件。
`3xx (redirection)`	Google 会按照 RFC 1945 的规定跟踪至少五次重定向，然后便会停止，并将其作为 robots.txt 的 `404` 错误来处理。这也适用于重定向链中任何被禁止访问的网址，因为抓取工具会由于重定向而无法提取规则。 Google 不会跟踪 robots.txt 文件中的逻辑重定向（框架、JavaScript 或元刷新型重定向）。
`4xx (client errors)`	Google 抓取工具会将所有 `4xx` 错误（`429` 除外）解读为网站不存在有效的 robots.txt 文件，这意味着 Google 会假定没有任何抓取限制。请勿使用 `401` 和 `403` 状态代码限制抓取速度。`4xx` 状态代码（`429` 除外）对抓取速度没有影响。了解如何限制抓取速度。
`5xx (server errors)`	由于服务器无法对 Google 的 robots.txt 请求提供明确响应，因此 Google 会暂时将服务器错误 `5xx` 和 `429` 解读为网站完全禁止访问。Google 会尝试抓取 robots.txt 文件，直到获得非服务器错误的 HTTP 状态代码。`503 (service unavailable)` 错误会导致非常频繁的重试操作。如果连续 30 天以上无法访问 robots.txt，Google 会使用该 robots.txt 的最后一个缓存副本。如果没有缓存副本，Google 会假定没有任何抓取限制。如果您需要暂停抓取，建议为网站上的每个网址提供 `503` HTTP 状态代码。如果我们能够确定，某网站因为配置不正确而在缺少网页时返回 `5xx` 而不是 `404` 状态代码，就会将该网站的 `5xx` 错误作为 `404` 错误处理。例如，如果返回 `5xx` 状态代码的网页上的错误消息为“找不到网页”，我们会将该状态代码解释为 `404 (not found)`。
其他错误	对于因 DNS 或网络问题（例如超时、响应无效、重置或断开连接、HTTP 组块错误等）而无法抓取的 robots.txt 文件，系统在处理时会将其视为服务器错误。

标签:robots

上一篇：如何从搜索引擎结果中移除(删除)您网站上的图片

下一篇：没有了

SEO过程中遭遇DNS错误应采取哪些措施？

SEO,DNS错误

192 次阅读
2024年11月11日11:06
什么样的< a >链接才是确保可被搜索引擎抓取的链接

a链接,搜索引擎

472 次阅读
2024年11月05日10:00
如果是图片站，如何制定适合搜索引擎的图片站点地图？

图片站点地图

271 次阅读
2024年10月30日14:14
如果考虑聘请SEO,如何评判甄别专业合格的SEO 人选？

SEO专家，聘请SEO，注意事项

291 次阅读
2024年09月27日09:43
深度剖析自媒体平台运营策略技巧与变现路径

自媒体运营，自媒体变现

478 次阅读
2024年10月25日13:54
搭建自适应/响应式网站设置规则及注意事项

自适应,响应式,页面设置

163 次阅读
2024年09月29日14:16

Google如何正确认识和使用robots.txt文件（收藏备用）

文件位置和有效范围

有效 robots.txt 网址的示例

错误处理和 HTTP 状态代码

相关文章

SEO过程中遭遇DNS错误应采取哪些措施？

什么样的< a >链接才是确保可被搜索引擎抓取的链接

如果是图片站，如何制定适合搜索引擎的图片站点地图？

如果考虑聘请SEO,如何评判甄别专业合格的SEO 人选？

深度剖析自媒体平台运营策略技巧与变现路径

搭建自适应/响应式网站设置规则及注意事项