将 import.io 与鼠标悬停文本一起使用
Using import.io with mouseover text
老观众,第一次发帖!
我遇到了一些麻烦...我注意到现在抓取网页时显然可以选择抓取鼠标悬停文本 (http://support.import.io/forums/199278-ideas-forum/suggestions/10368834-website-elements-displayed-on-mouseover),但我不知道该怎么做!
我尝试在其上执行此操作的页面类型是这样的(我将使用它来抓取许多类似的页面):https://www.kickstarter.com/profile/1874304670我想要圆图每个部分中的数字,以及以及图表中这些类别的标题。此文本仅在鼠标悬停时出现。我在制作爬虫时无法显示此文本,更不用说抓取数据了。
或者,如果我可以使用页面源提取数据,我可以获得信息,因为数据在其他代码将其更改为图形之前就已经存在。但是,这个功能似乎还不适用于爬虫,只有提取器(据我所知)。
关于如何直接执行此操作的任何帮助?或者也许有某种解决方法?也许 import.io 不是我应该为此使用的,但如果可以的话,那就太好了!
提前致谢!
在 import.io 中没有 "out of the box" 方法来执行此操作,但是如果您对 JS 有所了解,则有一个解决方法...
如果您使用自定义 xpath .//*[@id='small_circle']
,您可以获得一段 json 包含您想要的信息的数据。
格式如下:
[...{
"category_id":26,
"label":"Crafts",
"projects_backed":0,
"color":"rgba(0,0,0,0.0)",
"path":"/profile/1874304670?category_id=26&ref=wheel",
"data":1
},
...
]
你可以在爬取后做一些post处理,过滤掉你想要的相关部分,或者用JS解析,直接取"label"和"projects_backed"键即可。
老观众,第一次发帖!
我遇到了一些麻烦...我注意到现在抓取网页时显然可以选择抓取鼠标悬停文本 (http://support.import.io/forums/199278-ideas-forum/suggestions/10368834-website-elements-displayed-on-mouseover),但我不知道该怎么做!
我尝试在其上执行此操作的页面类型是这样的(我将使用它来抓取许多类似的页面):https://www.kickstarter.com/profile/1874304670我想要圆图每个部分中的数字,以及以及图表中这些类别的标题。此文本仅在鼠标悬停时出现。我在制作爬虫时无法显示此文本,更不用说抓取数据了。
或者,如果我可以使用页面源提取数据,我可以获得信息,因为数据在其他代码将其更改为图形之前就已经存在。但是,这个功能似乎还不适用于爬虫,只有提取器(据我所知)。
关于如何直接执行此操作的任何帮助?或者也许有某种解决方法?也许 import.io 不是我应该为此使用的,但如果可以的话,那就太好了!
提前致谢!
在 import.io 中没有 "out of the box" 方法来执行此操作,但是如果您对 JS 有所了解,则有一个解决方法...
如果您使用自定义 xpath .//*[@id='small_circle']
,您可以获得一段 json 包含您想要的信息的数据。
格式如下:
[...{
"category_id":26,
"label":"Crafts",
"projects_backed":0,
"color":"rgba(0,0,0,0.0)",
"path":"/profile/1874304670?category_id=26&ref=wheel",
"data":1
},
...
]
你可以在爬取后做一些post处理,过滤掉你想要的相关部分,或者用JS解析,直接取"label"和"projects_backed"键即可。