网络爬虫是否遵循 robots.txt 网址或标签

Does web crawlers follow robots.txt urls or a tags

我有一个主要基于 javascript 的网站。具体来说，没有 <a> 标签。单击某些按钮时，内容会动态插入 DOM 树中，然后 URL 将使用 javascript 来表示更新。

所以，我的问题是，如果我的 robots.txt 中有一个链接列表，允许的网络爬虫（Google、Bing 等）是否会直接访问这些链接在 robots.txt 中，还是他们会点击下载网站中提供的 robots.txt 链接？

因为在第二种情况下，网络爬虫不会在下载的 / 站点和 robots.txt 文件中找到任何 URL。

您可以使用 Sitemaps 为抓取工具提供一个 URL 列表。正如@Barmar 所提到的，robots.txt 的目的略有不同。