google（和其他 SE）如何找到供网络爬虫索引的页面？

How google (and other SEs) find pages for web crawlers to index?

当你构建一个网络爬虫时，你定义了一个页面url，它贯穿这个页面和这个页面上的所有链接，等等。但是搜索引擎索引的是什么？我的意思是，他们不能只在 url 中打印万维网，所有网站都将被抓取... 那么基本上他们在爬什么？

而且我也想知道，如果我爬取一个网站，是否可以认为是DOS攻击？我的意思是没有伤害，我只是想收集信息。那么我是否应该担心被指责为发起拒绝服务攻击的人？

每个搜索引擎都有一组不同的索引。如果我们知道我们就没有 SEO 行业。通常他们会查看显示的文本、元数据、标题和 Alt 属性。根据标记样式为文本赋予不同的优先级 - 因此 H1 标签会为其内容增加权重，使其被认为是更强的匹配。

抓取站点不是 DoS，除非您可能从许多客户端发出许多重复和不必要的请求。

另外，抓取过程和你说的完全一样。 URL 由网站所有者作为起点提交。然后抓取所有链接 - 经常重新访问页面以更新新内容。大多数网站都会包含一个 robots.txt 文件来告诉爬虫它可以查看什么。由爬虫的开发者决定他们是否尊重它。