Scrapy-splash

Question

我是 Scrapy-splash 的新手，我正在尝试抓取一个懒惰的 datatable，它是一个带有 AJAX 分页的 table。

所以我需要加载网站，等到JS被执行，得到table的html然后点击分页的"Next"按钮。

我的方法可行，但恐怕我请求了该网站两次。

第一次当我 yield SplashRequest 然后当 lua_script 被执行。

这是真的吗？如果是，如何让它只执行一次请求？

class JSSpider(scrapy.Spider):
    name = 'js_spider'
    script = """
    function main(splash, args)
        splash:go(args.url)
        splash:wait(0.5)
        local page_one = splash:evaljs("$('#example').html()")
        splash:evaljs("$('#example_next').click()")
        splash:wait(2)
        local page_two = splash:evaljs("$('#example').html()")
        return {page_one=page_one,page_two=page_two}
    end"""

    def start_requests(self):
        url = f"""https://datatables.net/examples/server_side/defer_loading.html"""
        yield SplashRequest(url, endpoint='execute',callback=self.parse, args={'wait': 0.5,'lua_source':self.script,'url':url})

    def parse(self, response):
        # assert isinstance(response, SplashTextResponse)
        page_one = response.data.get('page_one',None)
        page_one_root = etree.fromstring(page_one, HTMLParser())
        page_two = response.data.get('page_two',None)
        page_two_root = etree.fromstring(page_one, HTMLParser())

编辑

另外，我想等到 AJAX 比 splash:wait(2) 执行得更好。是否有可能以某种方式等到 table 改变？理想情况下有一些超时。

Answer 1

Lua 脚本非常直白 - 如果您有 1 个 splash:go 那么一个请求由 1 个 splash worker 发出。
你的抓取工具在这里没问题。

虽然毫无意义地挑剔：你的蜘蛛通过 http 连接到一个工人，所以理论上 提出了两个请求：第一个是飞溅服务，第二个是飞溅工人的目标。

Scrapy-splash - lua_script 中的 splash:go(url) 是否再次执行 GET 请求？

Scrapy-splash - does splash:go(url) in lua_script perform GET request again?

javascript

python

splash-screen

scrapy