只提供导航搜索栏的网站用什么方法爬取
What methods are used to crawl a website that only offers a search bar for navigation
如果像以下网站一样只有导航搜索栏,您将如何抓取网站以便为每个页面编制索引。
https://plejehjemsoversigten.dk/
人们只是强行搜索查询,还是有一种通常用来为这类网站编制索引的方法?
可能有多种方法可以解决您的问题(但是,如果资源所有者不希望抓取该资源,那可能真的很有挑战性)
- 检查
robots.txt
资源。它可能会为您提供有关站点结构的线索。
- 检查
sitemap.xml
资源。它可能会给出资源所有者希望成为的页面的 URL public
- 使用替代索引器(如 google)。使用高级语法将搜索范围缩小到特定站点(如
site:your.domain
)
- 在网站设计中使用漏洞。例如,列表中的第一个站点没有最小搜索字符串,因此您可以搜索
a
并获得 800 个包含 a
的结果。然后列出剩余的字母。
- 让搜索结果抓取搜索结果项目页面上的所有链接,因为通常可能会列出相关页面。
如果像以下网站一样只有导航搜索栏,您将如何抓取网站以便为每个页面编制索引。
https://plejehjemsoversigten.dk/
人们只是强行搜索查询,还是有一种通常用来为这类网站编制索引的方法?
可能有多种方法可以解决您的问题(但是,如果资源所有者不希望抓取该资源,那可能真的很有挑战性)
- 检查
robots.txt
资源。它可能会为您提供有关站点结构的线索。 - 检查
sitemap.xml
资源。它可能会给出资源所有者希望成为的页面的 URL public - 使用替代索引器(如 google)。使用高级语法将搜索范围缩小到特定站点(如
site:your.domain
) - 在网站设计中使用漏洞。例如,列表中的第一个站点没有最小搜索字符串,因此您可以搜索
a
并获得 800 个包含a
的结果。然后列出剩余的字母。 - 让搜索结果抓取搜索结果项目页面上的所有链接,因为通常可能会列出相关页面。