Apache Nutch 1.17,Dump 将带有一些元数据的内容解析为 JSON

Apache Nutch 1.17, Dump parsed content with some metadata into JSON

我已经安装了 Nutch 1.17 来抓取一些数据。下载后,我必须将该数据导入 JSON。它应该包含解析的文本、标题、时间戳、URL。我该怎么做?

你可以看看PR #490 which closed issue NUTCH-1863。这允许您将 CrawlDB 转储为 JSON 格式(检查 -format 标志)。

一个潜在的缺点是此工具可能不会输出您 want/need 的确切格式(不同的字段名称),但它应该是一个很好的起点(并且它应该包含比您需要)。

最终您可以实现自定义 class 以您想要的格式转储段的内容。您可以使用 SegmentDump.java class 作为基础实现。

或者,indexer-csv could be used as first step (conversion of CSV to JSON would be the second step). Indexer-csv allows to configure which Nutch index fields 导出 - 标题、URL(“id”)、时间戳(“tstamp”)和解析文本(“content”)作为标准字段或通过插件“index-basic”。