运行 通过 python 进行网络搜索?
Run a web search through python?
我正在尝试使用 python 脚本 运行 网络搜索。我知道如何让它适用于大多数站点,例如使用请求库来获取 "url+query arguments"。
我正在尝试 运行 搜索 wappalyzer.com。但是,当您 运行 搜索时,其 url 不会改变。我还尝试检查 html 以找出搜索发生的位置,以便我可以使用漂亮的汤来更改 html 和 运行 但无济于事。我真的是网络抓取的新手,所以希望得到帮助。
URL 不会改变,因为搜索适用于 javascript 和异步请求。自动化此类任务的最简单方法是执行 javascript 并以编程方式与之交互(通常比逆向工程客户端所做的请求更容易,除非 public API 可用)。
您可以使用 selenium with python,它非常易于使用,或者任何通过 运行 网络驱动程序(gecko、chrone、phantomjs)执行 Javascript 的自动化框架。
使用 selenium,您可以通过选择搜索字段(例如使用 css 选择器或 xpath)、输入一个值并验证搜索来非常轻松地对您的爬虫进行编程。然后您将能够转储整个页面或您需要的特定部分。
我正在尝试使用 python 脚本 运行 网络搜索。我知道如何让它适用于大多数站点,例如使用请求库来获取 "url+query arguments"。 我正在尝试 运行 搜索 wappalyzer.com。但是,当您 运行 搜索时,其 url 不会改变。我还尝试检查 html 以找出搜索发生的位置,以便我可以使用漂亮的汤来更改 html 和 运行 但无济于事。我真的是网络抓取的新手,所以希望得到帮助。
URL 不会改变,因为搜索适用于 javascript 和异步请求。自动化此类任务的最简单方法是执行 javascript 并以编程方式与之交互(通常比逆向工程客户端所做的请求更容易,除非 public API 可用)。
您可以使用 selenium with python,它非常易于使用,或者任何通过 运行 网络驱动程序(gecko、chrone、phantomjs)执行 Javascript 的自动化框架。
使用 selenium,您可以通过选择搜索字段(例如使用 css 选择器或 xpath)、输入一个值并验证搜索来非常轻松地对您的爬虫进行编程。然后您将能够转储整个页面或您需要的特定部分。