尝试将 XML 数据加载到 Hive 中...错误地解释行 returns
Trying to load XML data into Hive... wrongly interprets line returns
我在 Hive 中使用以下查询
--Load xml data to table
DROP table xmltable;
Create TABLE xmltable(xmldata string) STORED AS TEXTFILE;
LOAD DATA lOCAL INPATH '/home/user/data-input.xml' OVERWRITE INTO TABLE xmltable;
碰巧,我的 xml 文件(其中包含一个根元素)被加载并创建了 8 行而不是预期的行。这是因为我认为我的文件中有行 returns ...有什么方法可以避免(一些解决方法),或者我应该使用其他工具预先处理我的文件吗? (在这里寻找建议)
谢谢!
Hive虽然有"LINES TERMINATED BY"构造,但只支持换行。所以不,没有简单的解决方法。您要么必须预处理文件,要么使用设计用于处理 xml 文件的 UDF(检查 Stephanie 链接的问题的答案)
我在 Hive 中使用以下查询
--Load xml data to table
DROP table xmltable;
Create TABLE xmltable(xmldata string) STORED AS TEXTFILE;
LOAD DATA lOCAL INPATH '/home/user/data-input.xml' OVERWRITE INTO TABLE xmltable;
碰巧,我的 xml 文件(其中包含一个根元素)被加载并创建了 8 行而不是预期的行。这是因为我认为我的文件中有行 returns ...有什么方法可以避免(一些解决方法),或者我应该使用其他工具预先处理我的文件吗? (在这里寻找建议)
谢谢!
Hive虽然有"LINES TERMINATED BY"构造,但只支持换行。所以不,没有简单的解决方法。您要么必须预处理文件,要么使用设计用于处理 xml 文件的 UDF(检查 Stephanie 链接的问题的答案)