Scrapy 如何在蜘蛛运行之间保存状态(通过 scrapinghub)?

Scrapy how to save a State between spider runs (via scrapinghub)?

我有一个蜘蛛会 运行 按计划进行。蜘蛛输入基于日期。从上次刮擦日期到今天的日期。所以问题是如何在 Scrapy 项目中保存最后一次抓取的日期?有一个选项可以使用 pkjutil 模块从 scrapy 设置中获取数据,但我没有在文档中找到任何关于如何在该文件中写入数据的参考。任何想法?也许另一种选择? P.S。我的另一个选择是为此使用一些免费的远程 MySql 数据库。但如果有简单的解决方案可用,看起来需要做更多的工作。

import pkgutil

class CodeSpider(scrapy.Spider):
name = "code"
allowed_domains = ["google.com.au"]

def start_requests(self):
    f = pkgutil.get_data("au_go", "res/state.json")
    ids = json.loads(f)
    id = ids[0]['state']

    yield {'state':id}
    ids[0]['state'] = 'New State'
    with open('./au_go/res/state.json', 'w') as f:
        json.dump(ids, f)

上述解决方案在本地 运行 时工作正常。但是当 运行 在 Scrapinghub 上使用代码时,我没有得到这样的文件或目录。

File "/tmp/unpacked-eggs/__main__.egg/au_go/spiders/test_state.py", line 33, in parse
    with open(savePath, 'w') as f:
IOError: [Errno 2] No such file or directory: './au_go/res/state.json'

问题已通过使用 Scrapinghub Colections

解决

和 scrapinghub API。现在很好用。 这是一个示例代码,以防有人发现它有用。

from scrapinghub import ScrapinghubClient


client = ScrapinghubClient(Your API KEY)
project = client.get_project(Your Project ID)
collections = project.collections

last_accessed = collections.get_store('last_accessed')
last_accessed.set({'_key': 'Date', 'value': '12-54-1235'})
print last_accessed.get('Date')['value']