Rapid Miner 不保存爬网结果

Rapid Miner Not Saving Crawl Web Results

我正在尝试从 IMDB 网站抓取特定电影评论的评论。为此，我正在使用爬网，因为它有 74 页，所以我将其嵌入到循环中。

附件为配置图片。请帮忙。我深陷其中。

URL 对于 Crawl Web 是：http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}

当我尝试时，出现 403 forbidden 错误，因为 IMDB 服务认为我是机器人。将 Loop 与 Crawl Web 一起使用是不好的做法，因为 Loop 运算符不会实现任何等待。

这个过程可以简化为 Crawl Web 运算符。关键参数是：

这是可行的，因为爬网运算符将计算出所有可能匹配规则的 URL 并将存储那些也匹配的规则。访问将延迟 1000 毫秒（延迟参数）以避免在服务器上触发机器人排除。

希望这能让你开始。