列出来自 import.io 的提取器

Question

我想知道如何从我的 import.io 提取器中获取抓取数据（通过 GUI 手动输入的 URL 列表）。 API 文档非常稀少，它没有说明我发出的 GET 请求是否实际启动了一个爬虫（并消耗了我的爬虫可用运行之一）或只是查询手动启动的爬虫的结果。

另外我想知道如何获取connector ID，据我了解，extractor只不过是一个专门的connector，但是当我使用extractor_id作为connector id查询API, 我得到连接器不存在。

我认为我可以在我的提取器中列出我的 URL 的一种方式是：

https://api.import.io/store/connector/_search?

_sortDirection=DESC&_default_operator=OR&_mine=true&_apikey=123...

但我得到的唯一结果是：

{ "took": 2, "timed_out": false, "hits": { "total": 0, "hits": [], "max_score": 0 } }

尽管如此，即使我会得到更完整的回复，我在文档中看到的示例结果也没有提到任何类型的列表或包含我试图从我的 import.io 获取的 URL 的元素帐号。

我正在使用 python 创建这个 API

Answer 1

旧版 API 不适用于任何非旧版连接器，因此您必须使用新的 Web 提取器 API。不幸的是，没有这方面的文档。

幸运的是，通过一些窥探，您可以找到以下调用以列出连接到您的 apikey 的连接器：

https://store.import.io/store/extractor/_search?_apikey=YOUR_API_KEY

从这里开始，您检查每个命中并验证 _type 属性是否设置为 EXTRACTOR。这将使您能够访问与提取器关联的 GUID 以及您在创建它时为其选择的名称等。

然后您可以执行以下操作，以 CSV 格式从提取器下载最新的运行：

https://data.import.io/extractor/{{GUID}}/csv/latest?_apikey=YOUR_API_KEY

这可以在每个 Web Extractor 的 Integrations 选项卡中找到。还有其他查询。

希望对您有所帮助。

Listing extractors from import.io