获取 IOException:运行 import.io 时 EOF 过早

getting IOException: Premature EOF when running import.io

我使用 import.io 创建了一个爬虫 我遇到的第一个问题是import.io点击"Detect Optimal Settings"后无法识别网页上的数据。 它询问 "is the data you want to extract still in the browser?" 由于数据未突出显示,因此我单击否。即便如此,数据仍未突出显示。提取器也会发生同样的事情。 我继续处理这个问题,当它询问 "is the data you want to extract still in the browser?" 时单击是,即使数据没有突出显示。 我继续构建爬虫,它运行良好。 我在开头 url 放置了大约 15K urls,页面深度为 0.

发生的情况是,在 15K 个页面中,大约 10% 的页面未被抓取。我检查了日志文件,它针对未抓取的行显示 IOException: Premature EOF

如果我在浏览器中手动转到该页面,该页面加载正常,并且与我训练抓取工具的格式相同。我什至尝试训练显示此错误的页面,但这无济于事。

如何解决这个错误?

当我回复你的支持请求时,我认为最好把这些信息也放在这里。此错误很可能与网站检测到您正在使用爬虫并阻止 URL 有关。我建议重新运行爬虫并增加 "pause between pages",因为您要浏览这么多页面,以免网站阻止您。