如何在 PIG 中设置自定义分隔符
How to Set Custom Delimiter in PIG
在 Pig 中设置自定义 TextInputFormat 定界符的正确语法是什么?我已经尝试了以下几种变体,但将其视为字符串值而不是 Carriage Return Line Feed.
set textinputformat.record.delimiter '\r\n';
Pig版本为0.12.0-cdh5.9.0,Hadoop版本为2.6.0-cdh5.9.0
不理想,但有一个解决方法:
创建一个类似于 myprops.properties
的属性文件,其中包含以下行:textinputformat.record.delimiter=\r\n
然后 运行 您的脚本如下:pig -P ~/myprops.properties -f path/to/pigscript.pig
看起来这是一个已知问题,如以下第四条评论的第四段所述:PIG_4572
语法如下
SET textinputformat.record.delimiter '<delimiter>';
这对我有用
在 Pig 中设置自定义 TextInputFormat 定界符的正确语法是什么?我已经尝试了以下几种变体,但将其视为字符串值而不是 Carriage Return Line Feed.
set textinputformat.record.delimiter '\r\n';
Pig版本为0.12.0-cdh5.9.0,Hadoop版本为2.6.0-cdh5.9.0
不理想,但有一个解决方法:
创建一个类似于 myprops.properties
的属性文件,其中包含以下行:textinputformat.record.delimiter=\r\n
然后 运行 您的脚本如下:pig -P ~/myprops.properties -f path/to/pigscript.pig
看起来这是一个已知问题,如以下第四条评论的第四段所述:PIG_4572
语法如下
SET textinputformat.record.delimiter '<delimiter>';
这对我有用