Nutch 1.x：如何使用 s3a 而不是 HDFS？

Nutch 1.x: How to use s3a instead of HDFS?

我看过官方Apache Nutch with Hadoop tutorial。它谈到在 "deploy mode"（即在 Hadoop 集群内）中使用 Nutch 时使用 HDFS 来存储 Nutch 的数据。

在使用 Hadoop 时，我更喜欢使用 s3a 而不是 HDFS 作为存储后端。 Nutch 1.x 是否支持使用 s3a 而不是 HDFS 来存储数据？如果是这样，需要调整哪些相关 Nutch/Hadoop 设置？

最新版本的 Nutch 1.x（1.14 及更高版本，请参见 NUTCH-2281）如果底层 Hadoop 支持，则支持开箱即用的 s3a 文件系统。

注意：通常，s3a 比 HDFS 慢，请参阅 S3A performance issues。这尤其适用于 Nutch 的 CrawlDb 或 LinkDb。 CrawlDb 每个周期都会更新，首先将新的 CrawlDb 写入新目录，然后通过将新的 CrawlDb 移动到 "current" 来替换活动的 CrawlDb（称为 "current"）。 "mv" 在 HDFS 上便宜但在 S3A 上不便宜。

最终，您可能希望将 CrawlDb 保留在 HDFS 上并使用 "distcp".

在 S3A 上对其进行检查点

Nutch 1.x：如何使用 s3a 而不是 HDFS？

Nutch 1.x: How to use s3a instead of HDFS?

hadoop

amazon-s3

nutch

hdfs