只提供导航搜索栏的网站用什么方法爬取

What methods are used to crawl a website that only offers a search bar for navigation

如果像以下网站一样只有导航搜索栏,您将如何抓取网站以便为每个页面编制索引。

https://plejehjemsoversigten.dk/

https://findadentist.ada.org/

人们只是强行搜索查询,还是有一种通常用来为这类网站编制索引的方法?

可能有多种方法可以解决您的问题(但是,如果资源所有者不希望抓取该资源,那可能真的很有挑战性)

  • 检查 robots.txt 资源。它可能会为您提供有关站点结构的线索。
  • 检查 sitemap.xml 资源。它可能会给出资源所有者希望成为的页面的 URL public
  • 使用替代索引器(如 google)。使用高级语法将搜索范围缩小到特定站点(如 site:your.domain
  • 在网站设计中使用漏洞。例如,列表中的第一个站点没有最小搜索字符串,因此您可以搜索 a 并获得 800 个包含 a 的结果。然后列出剩余的字母。
  • 让搜索结果抓取搜索结果项目页面上的所有链接,因为通常可能会列出相关页面。