使用搜索引擎打开网页

Opening web pages using search engine

我正在尝试在同一域中打开多个网页。我需要这些链接来抓取一些数据(我得到了网站的许可)。 我不能使用我真正想要抓取的域名,但举个例子: 如果一个网站是 www.gsmarena.com,我只想抓取该网站上以特定字符串结尾的所有页面: 示例 www.gsmarena.com/*anystring*/*searchstring*

希望有人能帮帮我

我可以告诉你如果我处于你的情况我会怎么做,但你需要一些创建抓取应用程序的经验(我首选的抓取语言是 C#。)。以下是步骤(需要使用抓取应用程序完成):

  • 将主页下载为字符串
  • 获取所有类别(或您需要的类别)的 link(如果您想使用 C#,那么 HTMLAgilityPack 将帮助您完成此操作)
  • 按类别下载类别并从那里获取他们的产品link。

希望对你有所帮助。如果您想了解更多,请随时在评论中提问。