Scrapy 和内容更新 JavaScript

Question

我想抓取（头条新闻、日期、时间）本地音乐场所网站：http://www.bluebirdtheater.net/events

我使用过 scrapy，并且成功地抓取了网站上的内容。但是有一个加载更多按钮。我见过其他解决方案，其中加载更多按钮 returns 呈现的 POST 响应 html 可以被抓取。

通过浏览器检查器，我看到该站点调用了一个 get 方法：http://www.bluebirdtheater.net/events/events_ajax/40

我使用 scrapy 调用 url 进行抓取，但响应对于 scrapy 来说是不可读的（JavaScript？未渲染的 DOM？谁能告诉我它是什么？我很好奇。）我还能使用一个仅限 scrapy 的方法？

我见过人们使用 Selenium 来实际点击更多按钮并加载所有数据，然后抓取它。

Answer 1

我为这样做感到抱歉，但这里有一个快速修复方法，可以替换所有空格、换行符和反斜杠。

print s.replace('\n', '').replace('\t', '').replace('\','')

Scrapy and content updated with JavaScript