被nutch转储后的文件是什么编码？

what encoding are files after being dumped by nutch?

我一直在使用readseg函数在用nutch爬取后转储数据。但我一直有编码问题。被nutch转储后的文件是什么编码？

HTML的内容还是原来的编码方式。从 Nutch 1.17 开始，可以选择将其转换为 UTF-8，请参阅 NUTCH-2773。您需要将属性 segment.reader.content.recode 设置为 true。当然，这不适用于二进制文档格式。

转储段时，所有其他数据（元数据、提取的纯文本）始终以 UTF-8 编码。