Scrapy 和内容更新 JavaScript
Scrapy and content updated with JavaScript
我想抓取(头条新闻、日期、时间)本地音乐场所网站:http://www.bluebirdtheater.net/events
我使用过 scrapy,并且成功地抓取了网站上的内容。但是有一个加载更多按钮。我见过其他解决方案,其中加载更多按钮 returns 呈现的 POST 响应 html 可以被抓取。
通过浏览器检查器,我看到该站点调用了一个 get 方法:http://www.bluebirdtheater.net/events/events_ajax/40
我使用 scrapy 调用 url 进行抓取,但响应对于 scrapy 来说是不可读的(JavaScript?未渲染的 DOM?谁能告诉我它是什么?我很好奇。)我还能使用一个仅限 scrapy 的方法?
我见过人们使用 Selenium 来实际点击更多按钮并加载所有数据,然后抓取它。
我为这样做感到抱歉,但这里有一个快速修复方法,可以替换所有空格、换行符和反斜杠。
print s.replace('\n', '').replace('\t', '').replace('\','')
我想抓取(头条新闻、日期、时间)本地音乐场所网站:http://www.bluebirdtheater.net/events
我使用过 scrapy,并且成功地抓取了网站上的内容。但是有一个加载更多按钮。我见过其他解决方案,其中加载更多按钮 returns 呈现的 POST 响应 html 可以被抓取。
通过浏览器检查器,我看到该站点调用了一个 get 方法:http://www.bluebirdtheater.net/events/events_ajax/40
我使用 scrapy 调用 url 进行抓取,但响应对于 scrapy 来说是不可读的(JavaScript?未渲染的 DOM?谁能告诉我它是什么?我很好奇。)我还能使用一个仅限 scrapy 的方法?
我见过人们使用 Selenium 来实际点击更多按钮并加载所有数据,然后抓取它。
我为这样做感到抱歉,但这里有一个快速修复方法,可以替换所有空格、换行符和反斜杠。
print s.replace('\n', '').replace('\t', '').replace('\','')