获取 IOException：运行 import.io 时 EOF 过早

getting IOException: Premature EOF when running import.io

import.io

我使用 import.io 创建了一个爬虫我遇到的第一个问题是import.io点击"Detect Optimal Settings"后无法识别网页上的数据。它询问 "is the data you want to extract still in the browser?" 由于数据未突出显示，因此我单击否。即便如此，数据仍未突出显示。提取器也会发生同样的事情。我继续处理这个问题，当它询问 "is the data you want to extract still in the browser?" 时单击是，即使数据没有突出显示。我继续构建爬虫，它运行良好。我在开头 url 放置了大约 15K urls，页面深度为 0.

发生的情况是，在 15K 个页面中，大约 10% 的页面未被抓取。我检查了日志文件，它针对未抓取的行显示 IOException: Premature EOF。

如果我在浏览器中手动转到该页面，该页面加载正常，并且与我训练抓取工具的格式相同。我什至尝试训练显示此错误的页面，但这无济于事。

如何解决这个错误？

当我回复你的支持请求时，我认为最好把这些信息也放在这里。此错误很可能与网站检测到您正在使用爬虫并阻止 URL 有关。我建议重新运行爬虫并增加 "pause between pages"，因为您要浏览这么多页面，以免网站阻止您。