正在抓取 javascript 生成的网页
Scraping webpage generated by javascript
我在将 javascript 内容导入 HTML 以用于编写脚本时遇到问题。我使用了多种方法作为 phantomjs 或 python QT 库,它们都很好地获得了大部分内容,但问题是页面内有 javascript 个按钮,如下所示:
Pls see screenshot here
现在,当我从脚本加载此页面时,这些按钮不会默认为任何值,因此我为下面的所有 SELL/NEUTRAL/BUY 值取回 0。当您从脚本加载页面时,有没有办法设置这些值?
包含所有值的示例页面是:https://www.tradingview.com/symbols/NEBLBTC/technicals/
如有任何帮助,我们将不胜感激。
如果您尝试使用 scrapy 或 cURL
或 urrlib
的推导来实现此目的,恐怕您无法做到这一点。 Python 有另一个外部包,例如 selenium,它允许您与页面的 javascript 进行交互,但是 selenium 的问题太慢了,如果您想要类似于 scrapy 的东西,您可以检查该站点的工作方式(我可以看到它通过 ajax 或 websockets 工作)并通过 urllib
获取您想要的信息,就像您使用 API.
一样
如果你理解我的意思或者我误解了你的问题,请告诉我
我使用的 seleneum 非常适合这项工作,它确实很慢,但符合我的目的。我还使用了 seleneum firefox 插件来生成 python 脚本,因为很难在代码中准确找到我必须按下的按钮所在的位置。
我在将 javascript 内容导入 HTML 以用于编写脚本时遇到问题。我使用了多种方法作为 phantomjs 或 python QT 库,它们都很好地获得了大部分内容,但问题是页面内有 javascript 个按钮,如下所示:
Pls see screenshot here
现在,当我从脚本加载此页面时,这些按钮不会默认为任何值,因此我为下面的所有 SELL/NEUTRAL/BUY 值取回 0。当您从脚本加载页面时,有没有办法设置这些值?
包含所有值的示例页面是:https://www.tradingview.com/symbols/NEBLBTC/technicals/
如有任何帮助,我们将不胜感激。
如果您尝试使用 scrapy 或 cURL
或 urrlib
的推导来实现此目的,恐怕您无法做到这一点。 Python 有另一个外部包,例如 selenium,它允许您与页面的 javascript 进行交互,但是 selenium 的问题太慢了,如果您想要类似于 scrapy 的东西,您可以检查该站点的工作方式(我可以看到它通过 ajax 或 websockets 工作)并通过 urllib
获取您想要的信息,就像您使用 API.
如果你理解我的意思或者我误解了你的问题,请告诉我
我使用的 seleneum 非常适合这项工作,它确实很慢,但符合我的目的。我还使用了 seleneum firefox 插件来生成 python 脚本,因为很难在代码中准确找到我必须按下的按钮所在的位置。