索引时如何在 nutch 1.14 中获取 rawContent

How to Get rawContent in nutch 1.14 while indexing

我正在尝试为 Apache nutch 1.14 编写自己的 index-html 插件。我如何在 2.3.1 版本的 nutch 1.14 中获得 "rawContent" 的 html 我们能够通过网页获得它,但在 1.14 版本中我们只能获得文本。

对于 Nutch 1.14,您应该已经在索引 command/job 上有了选项 -addBinaryContent(参见 https://github.com/apache/nutch/blob/release-1.14/src/java/org/apache/nutch/indexer/IndexingJob.java#L171)。这意味着使用此标志,您可以将原始字节发送到索引后端。您也可以使用相应的标志将其编码为 base64(如果您的索引后端没有字节类型则很有用)。