如何在 import.io 中正确设置 xpaths 以进行抓取

How to properly set xpaths in import.io for scraping

我正在尝试在 Import.io 中设置一个提取器,但我很难让 API 发布。每次它告诉我它不能发布 API 并且可能尝试使用 xpaths。因此,经过进一步研究,我发现在 craig 的列表页面上找到的标题链接的 xpath 保存在 span 标记中。 标签如下:

span[@class='pl']

我已经尝试在 import.io 的 xpath 区域中为一个字段设置以下内容

//span[@class='pl']

但无济于事。无论我怎么尝试,我实际上都无法让 API 发布。虽然我能够将数据导出到数据集,但我真的很想 API 发布。

我想知道是否有人成功地使用 import.io 对 craigs 列表进行了一些小的抓取?如果是这样,为了让 API 正确发布,需要采取哪些步骤?

此外,作为旁注,我已经阅读了一些关于 Scrapy 的文章,但我对 python、如何安装它以及 运行 一无所知,即使我确实找到了一个与此问题直接相关的特定代码段。任何人都知道如何让 Import.io 发布 API?

因此,对于寻找此问题答案的任何其他人,使用 Import.io 设置正确的 xpath 以在 Craig's List 上抓取标题的方法是将高级 xpath 覆盖设置为以下内容:

.//span[@class='pl']/.

现在我的问题是 Craig 的列表返回了 403 个错误 - 意思是禁止的。