client-side 上的网页抓取
Web Scraping on client-side
这可能不是这个问题的最佳标题。
所以我的服务器上有一个 nodejs 应用程序 运行,它目前使用 python 脚本 web-scraping 但我正在考虑将其移动到 client-side 由于个人客户看到同一网站的不同版本(可能是唯一的)。
我是一个理想的世界,我想使用 javascript 从页面获取 html 响应(我可以通过 right-clicking 在 chrome 中看到并选择查看源代码)然后在 javascript 中处理。
但是从我在网上看到的情况来看,这似乎是不可能的。我知道提供可被抓取的响应(例如 anyorigin.com)的网站。然而,这些并不真正适合我,因为我需要能够抓取用户看到的内容,因为每个用户都可能在我想抓取的网站上看到不同的东西。我目前使用的 python 脚本会执行此操作,但它需要用户安装 python 才能让我能够执行它,但不能保证这一点。
对这段文字表示歉意。
这个问题有什么解决办法吗?
我最近试图做一些非常相似的事情,不幸的是,据我所知,没有办法在客户端做到这一点。您也许可以做一些诡计,然后 "post" 将您需要的数据返回给您处理它的服务器,但我认为这不会非常有效或直接。
尽管如果您确实找到了什么,请分享。
经过一些研究并收到建议后,我使用 Chrome 开发者网站上的简单指南创建了一个 chrome 扩展,并使用 CORSrequest 来获得我需要的东西。
如果有人发现这个问题并希望得到帮助,我很乐意提供进一步的帮助 details/assistance :)
这可能不是这个问题的最佳标题。
所以我的服务器上有一个 nodejs 应用程序 运行,它目前使用 python 脚本 web-scraping 但我正在考虑将其移动到 client-side 由于个人客户看到同一网站的不同版本(可能是唯一的)。
我是一个理想的世界,我想使用 javascript 从页面获取 html 响应(我可以通过 right-clicking 在 chrome 中看到并选择查看源代码)然后在 javascript 中处理。
但是从我在网上看到的情况来看,这似乎是不可能的。我知道提供可被抓取的响应(例如 anyorigin.com)的网站。然而,这些并不真正适合我,因为我需要能够抓取用户看到的内容,因为每个用户都可能在我想抓取的网站上看到不同的东西。我目前使用的 python 脚本会执行此操作,但它需要用户安装 python 才能让我能够执行它,但不能保证这一点。
对这段文字表示歉意。
这个问题有什么解决办法吗?
我最近试图做一些非常相似的事情,不幸的是,据我所知,没有办法在客户端做到这一点。您也许可以做一些诡计,然后 "post" 将您需要的数据返回给您处理它的服务器,但我认为这不会非常有效或直接。
尽管如果您确实找到了什么,请分享。
经过一些研究并收到建议后,我使用 Chrome 开发者网站上的简单指南创建了一个 chrome 扩展,并使用 CORSrequest 来获得我需要的东西。
如果有人发现这个问题并希望得到帮助,我很乐意提供进一步的帮助 details/assistance :)