使用自定义分隔符将数据加载到 Hive 中
Load data into Hive with custom delimiter
我正在尝试在配置单元中创建一个内部(托管)table 来存储我的增量日志数据。 table 是这样的:
CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '<=>'
STORED AS TEXTFILE;
我需要定期将数据加载到此 table。
LOAD DATA INPATH '/user/foo/data/logs' INTO TABLE logs;
但是数据没有正确插入 table。 delimiter.Can可能有一些问题找不到原因。
示例日志行:
120<=>abcdefg<=>2016-01-01 12:14:11
在 select * from logs;
我明白了,
120 =>abcdefg NULL
第一个属性很好,第二个属性包含分隔符的一部分,但因为它是插入的字符串,第三个属性将为空,因为它需要日期时间。
任何人都可以帮助解决如何提供自定义分隔符和成功加载数据的问题。
默认情况下,hive 只允许用户使用单个字符作为字段分隔符。虽然有 RegexSerDe 可以指定多字符定界符,但使用起来会让人望而生畏,尤其是对于业余爱好者。
补丁 (HIVE-5871) 添加了一个名为 MultiDelimitSerDe
的新 SerDe
。使用 MultiDelimitSerDe
、,用户可以在创建 table 时指定一个多字符字段定界符 ,方式最相似到典型的 table 创作。
hive> CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP)
> ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe'
> WITH SERDEPROPERTIES ("field.delim"="<=>")
> STORED AS TEXTFILE;
hive> dfs -put /home/user1/multi_char.txt /user/hive/warehouse/logs/. ;
hive> select * from logs;
OK
120 abcdefg 2016-01-01 12:14:11
Time taken: 1.657 seconds, Fetched: 1 row(s)
hive>
CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe'
WITH SERDEPROPERTIES (
"field.delim"="<=>",
"collection.delim"=":",
"mapkey.delim"="@"
);
加载数据 table
load data local inpath '/home/kishore/Data/input.txt' overwrite into table logs;
我建议您使用我之前提到的 MultiDelimitSerDe 答案。您也可以尝试使用 RegexSerDe。但是您需要一个额外的步骤将其解析为您的数据类型,因为 RegexSerde 默认接受字符串。
RegexSerDe 将在处理一些日志文件时派上用场,其中数据排列不统一,只有一个分隔符。
CREATE TABLE logs_tmp (foo STRING,bar STRING, created_date STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "(\d{3})<=>(\w+)<=>(\d{4}-\d{2}-\d{2}\s\d{2}:\d{2}:\d{2})"
)
STORED AS TEXTFILE;
LOAD DATA LOCAL INPATH 'logs.txt' overwrite into table logs_tmp;
CREATE TABLE logs (foo INT,bar STRING, created_date TIMESTAMP) ;
INSERT INTO TABLE logs SELECT cast(foo as int) as foo,bar,cast(created_date as TIMESTAMP) as created_date from logs_tmp
输出:
OK
Time taken: 0.213 seconds
hive> select * from logs;
120 abcdefg 2016-01-01 12:14:11
我正在尝试在配置单元中创建一个内部(托管)table 来存储我的增量日志数据。 table 是这样的:
CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '<=>'
STORED AS TEXTFILE;
我需要定期将数据加载到此 table。
LOAD DATA INPATH '/user/foo/data/logs' INTO TABLE logs;
但是数据没有正确插入 table。 delimiter.Can可能有一些问题找不到原因。
示例日志行:
120<=>abcdefg<=>2016-01-01 12:14:11
在 select * from logs;
我明白了,
120 =>abcdefg NULL
第一个属性很好,第二个属性包含分隔符的一部分,但因为它是插入的字符串,第三个属性将为空,因为它需要日期时间。
任何人都可以帮助解决如何提供自定义分隔符和成功加载数据的问题。
默认情况下,hive 只允许用户使用单个字符作为字段分隔符。虽然有 RegexSerDe 可以指定多字符定界符,但使用起来会让人望而生畏,尤其是对于业余爱好者。
补丁 (HIVE-5871) 添加了一个名为 MultiDelimitSerDe
的新 SerDe
。使用 MultiDelimitSerDe
、,用户可以在创建 table 时指定一个多字符字段定界符 ,方式最相似到典型的 table 创作。
hive> CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP)
> ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe'
> WITH SERDEPROPERTIES ("field.delim"="<=>")
> STORED AS TEXTFILE;
hive> dfs -put /home/user1/multi_char.txt /user/hive/warehouse/logs/. ;
hive> select * from logs;
OK
120 abcdefg 2016-01-01 12:14:11
Time taken: 1.657 seconds, Fetched: 1 row(s)
hive>
CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe'
WITH SERDEPROPERTIES (
"field.delim"="<=>",
"collection.delim"=":",
"mapkey.delim"="@"
);
加载数据 table
load data local inpath '/home/kishore/Data/input.txt' overwrite into table logs;
我建议您使用我之前提到的 MultiDelimitSerDe 答案。您也可以尝试使用 RegexSerDe。但是您需要一个额外的步骤将其解析为您的数据类型,因为 RegexSerde 默认接受字符串。
RegexSerDe 将在处理一些日志文件时派上用场,其中数据排列不统一,只有一个分隔符。
CREATE TABLE logs_tmp (foo STRING,bar STRING, created_date STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "(\d{3})<=>(\w+)<=>(\d{4}-\d{2}-\d{2}\s\d{2}:\d{2}:\d{2})"
)
STORED AS TEXTFILE;
LOAD DATA LOCAL INPATH 'logs.txt' overwrite into table logs_tmp;
CREATE TABLE logs (foo INT,bar STRING, created_date TIMESTAMP) ;
INSERT INTO TABLE logs SELECT cast(foo as int) as foo,bar,cast(created_date as TIMESTAMP) as created_date from logs_tmp
输出:
OK
Time taken: 0.213 seconds
hive> select * from logs;
120 abcdefg 2016-01-01 12:14:11