被nutch转储后的文件是什么编码?
what encoding are files after being dumped by nutch?
我一直在使用readseg函数在用nutch爬取后转储数据。但我一直有编码问题。被nutch转储后的文件是什么编码?
HTML的内容还是原来的编码方式。从 Nutch 1.17 开始,可以选择将其转换为 UTF-8,请参阅 NUTCH-2773。您需要将 属性 segment.reader.content.recode
设置为 true。当然,这不适用于二进制文档格式。
转储段时,所有其他数据(元数据、提取的纯文本)始终以 UTF-8 编码。
我一直在使用readseg函数在用nutch爬取后转储数据。但我一直有编码问题。被nutch转储后的文件是什么编码?
HTML的内容还是原来的编码方式。从 Nutch 1.17 开始,可以选择将其转换为 UTF-8,请参阅 NUTCH-2773。您需要将 属性 segment.reader.content.recode
设置为 true。当然,这不适用于二进制文档格式。
转储段时,所有其他数据(元数据、提取的纯文本)始终以 UTF-8 编码。