Rapid Miner 不保存爬网结果
Rapid Miner Not Saving Crawl Web Results
我正在尝试从 IMDB 网站抓取特定电影评论的评论。为此,我正在使用爬网,因为它有 74 页,所以我将其嵌入到循环中。
附件为配置图片。请帮忙。我深陷其中。
URL 对于 Crawl Web 是:http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}
当我尝试时,出现 403 forbidden
错误,因为 IMDB 服务认为我是机器人。将 Loop
与 Crawl Web
一起使用是不好的做法,因为 Loop
运算符不会实现任何等待。
这个过程可以简化为 Crawl Web
运算符。关键参数是:
- URL - 将其设置为 http://www.imdb.com/title/tt0454876
- 最大页数 - 将其设置为 79 或您需要的任何数字
- 最大页面大小 - 将其设置为 1000
- 抓取规则 - 将这些设置为您指定的规则
- 输出目录 - 选择一个文件夹来存储东西
这是可行的,因为爬网运算符将计算出所有可能匹配规则的 URL 并将存储那些也匹配的规则。访问将延迟 1000 毫秒(延迟参数)以避免在服务器上触发机器人排除。
希望这能让你开始。
我正在尝试从 IMDB 网站抓取特定电影评论的评论。为此,我正在使用爬网,因为它有 74 页,所以我将其嵌入到循环中。
附件为配置图片。请帮忙。我深陷其中。
URL 对于 Crawl Web 是:http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}
当我尝试时,出现 403 forbidden
错误,因为 IMDB 服务认为我是机器人。将 Loop
与 Crawl Web
一起使用是不好的做法,因为 Loop
运算符不会实现任何等待。
这个过程可以简化为 Crawl Web
运算符。关键参数是:
- URL - 将其设置为 http://www.imdb.com/title/tt0454876
- 最大页数 - 将其设置为 79 或您需要的任何数字
- 最大页面大小 - 将其设置为 1000
- 抓取规则 - 将这些设置为您指定的规则
- 输出目录 - 选择一个文件夹来存储东西
这是可行的,因为爬网运算符将计算出所有可能匹配规则的 URL 并将存储那些也匹配的规则。访问将延迟 1000 毫秒(延迟参数)以避免在服务器上触发机器人排除。
希望这能让你开始。