google(和其他 SE)如何找到供网络爬虫索引的页面?

How google (and other SEs) find pages for web crawlers to index?

当你构建一个网络爬虫时,你定义了一个页面url,它贯穿这个页面和这个页面上的所有链接,等等。 但是搜索引擎索引的是什么?我的意思是,他们不能只在 url 中打印万维网,所有网站都将被抓取... 那么基本上他们在爬什么?

而且我也想知道,如果我爬取一个网站,是否可以认为是DOS攻击? 我的意思是没有伤害,我只是想收集信息。那么我是否应该担心被指责为发起拒绝服务攻击的人?

每个搜索引擎都有一组不同的索引。如果我们知道我们就没有 SEO 行业。通常他们会查看显示的文本、元数据、标题和 Alt 属性。根据标记样式为文本赋予不同的优先级 - 因此 H1 标签会为其内容增加权重,使其被认为是更强的匹配。

抓取站点不是 DoS,除非您可能从许多客户端发出许多重复和不必要的请求。

另外,抓取过程和你说的完全一样。 URL 由网站所有者作为起点提交。然后抓取所有链接 - 经常重新访问页面以更新新内容。大多数网站都会包含一个 robots.txt 文件来告诉爬虫它可以查看什么。由爬虫的开发者决定他们是否尊重它。