创建 Hive table - 如何从 CSV 源中派生列名?
Creating Hive table - how to derive column names from CSV source?
...我真的认为这是一条人迹罕至的道路。
我想在 Hive(或 SQL 中创建 DDL 语句,方法是检查 CSV 文件中公开(通常情况下)列名的第一条记录。
我看到了这个问题的各种接近答案,但没有很多可以自动化或大规模复制的答案。
我创建了以下代码来处理任务,但我担心它有一些问题:
#!/usr/bin/python
import sys
import csv
# get file name (and hence table name) from command line
# exit with usage if no suitable argument
if len(sys.argv) < 2:
sys.exit('Usage: ' + sys.argv[0] + ': input CSV filename')
ifile = sys.argv[1]
# emit the standard invocation
print 'CREATE EXTERNAL TABLE ' + ifile + ' ('
with open(ifile + '.csv') as inputfile:
reader = csv.DictReader(inputfile)
for row in reader:
k = row.keys()
sprung = len(k)
latch = 0
for item in k:
latch += 1
dtype = '` STRING' if latch == sprung else '` STRING,'
print '`' + item.strip() + dtype
break
print ')\n'
print "ROW FORMAT DELIMITED FIELDS TERMINATED BY ','"
print "LOCATION 'replacethisstringwith HDFS or S3 location'"
首先是它将所有内容简单地数据类型化为字符串。 (我想来自 CSV,这是一个可以原谅的罪过。当然,人们可以修改结果输出以更准确地设置数据类型。)
第二个是它不会清理 Hive table 列名中不允许的字符的潜在列名。 (我很容易地通过读取一个数据集立即打破它,其中列名通常有一个撇号作为数据。这造成了混乱。)
第三个是数据位置被标记化。我想只需要多一点编码时间,它就可以作为参数在命令行上传递。
我的问题是——我们为什么需要这样做?我缺少什么简单的方法来做到这一点?
(顺便说一句:引用 CSV Serde 没有奖励积分 - 我认为这仅在 Hive 14 中可用。我们中的很多人还没有与我们的生产系统相提并论。)
关于第一个问题(所有列都输入为字符串),这实际上是当前的行为,即使 table 正在被诸如 CSVSerde 或 RegexSerDe 之类的东西处理。根据您的用例的细节是否可以容忍额外的运行时延迟,一种可能的方法是根据您的外部 table 定义一个视图,该视图在查询时动态重铸列,并针对视图直接查询而不是外部 table。类似于:
CREATE VIEW VIEW my_view (
CAST(col1 AS INT) AS col1,
CAST(col2 AS STRING) AS col2,
CAST(col3 AS INT) as col3,
...
...
) AS SELECT * FROM my_external_table;
对于第二个问题(清理列名),我推断您的 Hive 安装是 0.12 或更早版本(0.13 支持列名中的任何 unicode 字符)。如果您导入 re
正则表达式模块,您可以在 Python 中使用类似以下内容执行该清理:
for item in k:
...
print '`' + re.sub(r'\W', '', item.strip()) + dtype
这应该摆脱任何 non-alphernumeric/underscore 个字符,这是 0.13 之前对 Hive 列名称的期望。顺便说一句,如果您以这种方式清理列名,我认为您不再需要周围的反引号。
至于第三个问题(外部table位置),我认为将位置指定为命令行参数是一种合理的做法。一种替代方法可能是在您的数据文件中添加另一个 "metarow" 以某种方式指定位置,但如果您已经坐在大量数据文件上,那将是一件痛苦的事情 - 我个人更喜欢命令行方法。
Kite SDK 具有使用头记录中的名称和前几条数据记录中的类型推断 CSV 模式的功能,然后从该模式创建 Hive table。您还可以使用它将 CSV 数据导入 table.
...我真的认为这是一条人迹罕至的道路。
我想在 Hive(或 SQL 中创建 DDL 语句,方法是检查 CSV 文件中公开(通常情况下)列名的第一条记录。
我看到了这个问题的各种接近答案,但没有很多可以自动化或大规模复制的答案。
我创建了以下代码来处理任务,但我担心它有一些问题:
#!/usr/bin/python
import sys
import csv
# get file name (and hence table name) from command line
# exit with usage if no suitable argument
if len(sys.argv) < 2:
sys.exit('Usage: ' + sys.argv[0] + ': input CSV filename')
ifile = sys.argv[1]
# emit the standard invocation
print 'CREATE EXTERNAL TABLE ' + ifile + ' ('
with open(ifile + '.csv') as inputfile:
reader = csv.DictReader(inputfile)
for row in reader:
k = row.keys()
sprung = len(k)
latch = 0
for item in k:
latch += 1
dtype = '` STRING' if latch == sprung else '` STRING,'
print '`' + item.strip() + dtype
break
print ')\n'
print "ROW FORMAT DELIMITED FIELDS TERMINATED BY ','"
print "LOCATION 'replacethisstringwith HDFS or S3 location'"
首先是它将所有内容简单地数据类型化为字符串。 (我想来自 CSV,这是一个可以原谅的罪过。当然,人们可以修改结果输出以更准确地设置数据类型。)
第二个是它不会清理 Hive table 列名中不允许的字符的潜在列名。 (我很容易地通过读取一个数据集立即打破它,其中列名通常有一个撇号作为数据。这造成了混乱。)
第三个是数据位置被标记化。我想只需要多一点编码时间,它就可以作为参数在命令行上传递。
我的问题是——我们为什么需要这样做?我缺少什么简单的方法来做到这一点?
(顺便说一句:引用 CSV Serde 没有奖励积分 - 我认为这仅在 Hive 14 中可用。我们中的很多人还没有与我们的生产系统相提并论。)
关于第一个问题(所有列都输入为字符串),这实际上是当前的行为,即使 table 正在被诸如 CSVSerde 或 RegexSerDe 之类的东西处理。根据您的用例的细节是否可以容忍额外的运行时延迟,一种可能的方法是根据您的外部 table 定义一个视图,该视图在查询时动态重铸列,并针对视图直接查询而不是外部 table。类似于:
CREATE VIEW VIEW my_view (
CAST(col1 AS INT) AS col1,
CAST(col2 AS STRING) AS col2,
CAST(col3 AS INT) as col3,
...
...
) AS SELECT * FROM my_external_table;
对于第二个问题(清理列名),我推断您的 Hive 安装是 0.12 或更早版本(0.13 支持列名中的任何 unicode 字符)。如果您导入 re
正则表达式模块,您可以在 Python 中使用类似以下内容执行该清理:
for item in k:
...
print '`' + re.sub(r'\W', '', item.strip()) + dtype
这应该摆脱任何 non-alphernumeric/underscore 个字符,这是 0.13 之前对 Hive 列名称的期望。顺便说一句,如果您以这种方式清理列名,我认为您不再需要周围的反引号。
至于第三个问题(外部table位置),我认为将位置指定为命令行参数是一种合理的做法。一种替代方法可能是在您的数据文件中添加另一个 "metarow" 以某种方式指定位置,但如果您已经坐在大量数据文件上,那将是一件痛苦的事情 - 我个人更喜欢命令行方法。
Kite SDK 具有使用头记录中的名称和前几条数据记录中的类型推断 CSV 模式的功能,然后从该模式创建 Hive table。您还可以使用它将 CSV 数据导入 table.