Import.io api 是否支持提取器状态?

Does Import.io api support status of the extractor?

我刚刚使用 import.io 创建了一个提取器。这个提取器使用链接。首先,我从一个页面中提取一些 url,并使用这些提取的 url,提取详细信息页面。当详细页面的提取完成后,我想得到结果。但是如何确定提取完成。是否有任何 api 端点用于检查提取状态?

我发现 "GET /store/connector/{id}" 旧版端点。但是当我尝试这个时,我得到了 404。你可以看一下屏幕截图。

另一个问题是,我想每天安排我的提取器两次。这可能吗?

谢谢

与每个提取器相关联的是抓取 运行。爬行 运行 表示具有特定配置(训练、URL 列表等)的提取器的 运行ning。每个爬网的状态 运行 可以具有以下值之一:

  • 开始 => 目前 运行正在
  • CANCELLED => 已启动但被用户取消
  • 已完成 => 运行 已完成

包含的其他元数据如下:

  • 开始于 - 运行 开始的时间
  • 停止于 - 运行 完成时
  • 总 URL 计数 - 运行
  • 中 URL 的总数
  • 成功 URL 计数 - 成功查询的数量 URLs
  • 失败 URL 计数 - 失败的查询次数 URLs
  • 行数 - 运行
  • 中返回的总行数

获取与提取器关联的 craw 运行 列表的 REST API 如下:

curl -s X GET "https://store.import.io/store/crawlrun/_search?_sort=_meta.creationTimestamp&_page=1&_perPage=30&extractorId=$EXTRACTOR_ID&_apikey=$IMPORT_IO_API_KEY"

哪里

  • $EXTRACTOR_ID - 用于列表抓取的提取器 运行s
  • $IMPORT_IO_API_KEY - Import.io API 来自您的帐户