如何在 PIG 中设置自定义分隔符

How to Set Custom Delimiter in PIG

在 Pig 中设置自定义 TextInputFormat 定界符的正确语法是什么?我已经尝试了以下几种变体,但将其视为字符串值而不是 Carriage Return Line Feed.

set textinputformat.record.delimiter '\r\n';

Pig版本为0.12.0-cdh5.9.0,Hadoop版本为2.6.0-cdh5.9.0

不理想,但有一个解决方法:

创建一个类似于 myprops.properties 的属性文件,其中包含以下行:textinputformat.record.delimiter=\r\n

然后 运行 您的脚本如下:pig -P ~/myprops.properties -f path/to/pigscript.pig

看起来这是一个已知问题,如以下第四条评论的第四段所述:PIG_4572

语法如下

SET textinputformat.record.delimiter '<delimiter>';

这对我有用