Google如何正确认识和使用robots.txt文件(收藏备用)

2024年11月14日 李祁 谷歌搜索指南 次阅读

您必须将 robots.txt 文件放在网站的顶级目录中,并为其使用支持的协议。和其他网址一样,robots.txt 文件的网址也区分大小写。就 Google 搜索而言,支持的协议包括 HTTP、HTTPS 和 FTP。使用 HTTP 和 HTTPS 协议时,抓取工具会使用 HTTP 无条件 GET 请求来提取 robots.txt 文件;使用 FTP 时,抓取工具会使用标准 RETR (RETRIEVE) 命令,并采用匿名登录方式。

robots.txt 文件中列出的规则只适用于该文件所在的主机、协议和端口号。

下表列出了 robots.txt 网址及其适用的网址路径的示例。 第一列包含 robots.txt 文件的网址,第二列包含 robots.txt 文件将适用及不适用的网域。

robots.txt 网址示例
https://example.com/robots.txt

这属于一般情况。该网址对其他子网域、协议或端口号来说无效。对同一个主机、协议和端口号上的所有子目录中的所有文件有效。

适用于:
  • https://example.com/

  • https://example.com/folder/file

不适用于:
  • https://other.example.com/

  • http://example.com/

  • https://example.com:8181/

https://www.example.com/robots.txt

子网域上的 robots.txt 仅对该子网域有效。

适用于: https://www.example.com/

不适用于:

  • https://example.com/

  • https://shop.www.example.com/

  • https://www.shop.example.com/

https://example.com/folder/robots.txt不是有效的 robots.txt 文件。抓取工具不会检查子目录中的 robots.txt 文件。
https://www.exämple.com/robots.txt

IDN 等同于其对应的 punycode 版本。

适用于:
  • https://www.exämple.com/

  • https://xn--exmple-cua.com/

不适用于: https://www.example.com/

ftp://example.com/robots.txt

适用于: ftp://example.com/

不适用于: https://example.com/

https://212.96.82.21/robots.txt

以 IP 地址作为主机名的 robots.txt 只在抓取作为主机名的该 IP 地址时有效。该 robots.txt 文件并不会自动对该 IP 地址上托管的所有网站有效,但该文件可能是共享的,在此情况下,它也可以在共享主机名下使用。

适用于: https://212.96.82.21/

不适用于: https://example.com/(即使托管在 212.96.82.21 上)

https://example.com:443/robots.txt

标准端口号(HTTP 为 80,HTTPS 为 443,FTP 为 21)等同于其默认的主机名。

适用于:

  • https://example.com:443/

  • https://example.com/

不适用于: https://example.com:444/

https://example.com:8181/robots.txt

非标准端口号上的 robots.txt 文件只对通过这些端口号提供的内容有效。

适用于: https://example.com:8181/

不适用于: https://example.com/

在请求 robots.txt 文件时,服务器响应的 HTTP 状态代码会影响 Google 抓取工具使用 robots.txt 文件的方式。下表总结了 Googlebot 针对各种 HTTP 状态代码处理 robots.txt 文件的方式。

错误处理和 HTTP 状态代码
2xx (success)表示成功的 HTTP 状态代码会提示 Google 抓取工具处理服务器提供的 robots.txt 文件。
3xx (redirection)

Google 会按照 RFC 1945 的规定跟踪至少五次重定向,然后便会停止,并将其作为 robots.txt 的 404 错误来处理。这也适用于重定向链中任何被禁止访问的网址,因为抓取工具会由于重定向而无法提取规则。

Google 不会跟踪 robots.txt 文件中的逻辑重定向(框架、JavaScript 或元刷新型重定向)。

4xx (client errors)

Google 抓取工具会将所有 4xx 错误(429 除外)解读为网站不存在有效的 robots.txt 文件,这意味着 Google 会假定没有任何抓取限制。

5xx (server errors)

由于服务器无法对 Google 的 robots.txt 请求提供明确响应,因此 Google 会暂时将服务器错误 5xx 和 429 解读为网站完全禁止访问。Google 会尝试抓取 robots.txt 文件,直到获得非服务器错误的 HTTP 状态代码。503 (service unavailable) 错误会导致非常频繁的重试操作。如果连续 30 天以上无法访问 robots.txt,Google 会使用该 robots.txt 的最后一个缓存副本。如果没有缓存副本,Google 会假定没有任何抓取限制。

如果您需要暂停抓取,建议为网站上的每个网址提供 503 HTTP 状态代码。

如果我们能够确定,某网站因为配置不正确而在缺少网页时返回 5xx 而不是 404 状态代码,就会将该网站的 5xx 错误作为 404 错误处理。例如,如果返回 5xx 状态代码的网页上的错误消息为“找不到网页”,我们会将该状态代码解释为 404 (not found)

其他错误对于因 DNS 或网络问题(例如超时、响应无效、重置或断开连接、HTTP 组块错误等)而无法抓取的 robots.txt 文件,系统在处理时会将其视为服务器错误


标签:robots
下一篇:没有了

相关文章

营销云 /  搜索引擎营销 / 浏览文章:Google如何正确认识和使用robots.txt文件(收藏备用)
    应用开发
  • 定制开发
  • 小程序开发
  • 微信开发
  • 网站开发
    运营维护
  • 网站运营
  • 电商运营
  • 自媒体运营
  • 网站代运营
电话:178-0100-0815 微信:115-7526-750
星阙实验室

星阙实验室

521SEO

521SEO

©2024 SemCloud.CN 营销云 版权所有 京ICP备 2024083843号-1  京公网安备11011202100844
战略合作伙伴: 优灵信息