如何在 import.io 中正确设置 xpaths 以进行抓取

Question

我正在尝试在 Import.io 中设置一个提取器，但我很难让 API 发布。每次它告诉我它不能发布 API 并且可能尝试使用 xpaths。因此，经过进一步研究，我发现在 craig 的列表页面上找到的标题链接的 xpath 保存在 span 标记中。标签如下：

span[@class='pl']

我已经尝试在 import.io 的 xpath 区域中为一个字段设置以下内容

//span[@class='pl']

但无济于事。无论我怎么尝试，我实际上都无法让 API 发布。虽然我能够将数据导出到数据集，但我真的很想 API 发布。

我想知道是否有人成功地使用 import.io 对 craigs 列表进行了一些小的抓取？如果是这样，为了让 API 正确发布，需要采取哪些步骤？

此外，作为旁注，我已经阅读了一些关于 Scrapy 的文章，但我对 python、如何安装它以及运行一无所知，即使我确实找到了一个与此问题直接相关的特定代码段。任何人都知道如何让 Import.io 发布 API?

Answer 1

因此，对于寻找此问题答案的任何其他人，使用 Import.io 设置正确的 xpath 以在 Craig's List 上抓取标题的方法是将高级 xpath 覆盖设置为以下内容：

.//span[@class='pl']/.

现在我的问题是 Craig 的列表返回了 403 个错误 - 意思是禁止的。

How to properly set xpaths in import.io for scraping