如何使用 Amazon Athena 创建仅包含某些特定文件(通配符)的 table?
How can I create a table with only some specific files (wildcard) using Amazon Athena?
我的桶曾经有这个结构:
mybucket/raw/i1.json
mybucket/raw/i2.json
使用 Amazon Athena 使用下面的代码创建
table.
CREATE EXTERNAL TABLE IF NOT EXISTS myclients.big_clients (
`id_number` string,
`txt` string,
...
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
WITH SERDEPROPERTIES (
'serialization.format' = '1',
) LOCATION 's3://mybucket/raw/'
TBLPROPERTIES ('has_encrypted_data'='false');
现在我在存储桶结构中遇到一些迁移问题。
桶中的新结构如下所示。
mybucket/raw/1/i1.json
mybucket/raw/1/docs/doc_1.json
mybucket/raw/1/docs/doc_2.json
mybucket/raw/1/docs/doc_3.json
mybucket/raw/2/i2.json
mybucket/raw/2/docs/doc_1.json
mybucket/raw/2/docs/doc_2.json
我希望我现在可以创建两个 table(与迁移前相同的 table 和一个仅包含文档的新文件。)
有什么方法可以做到这一点而不必在另一个文件夹中重新排列我的文件?
我正在为创建 table.
的存储桶文件搜索某种通配符
CREATE EXTERNAL TABLE IF NOT EXISTS myclients.big_clients (
`id_number` string,
`txt` string,
...
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
WITH SERDEPROPERTIES (
'serialization.format' = '1',
'input.regex' = 'i*.json'
) LOCATION 's3://mybucket/raw/'
TBLPROPERTIES ('has_encrypted_data'='false');
CREATE EXTERNAL TABLE IF NOT EXISTS myclients.big_clients_docs (
`dt` date,
`txt` string,
`id_number` string,
`s3_doc_path` string,
`s3_doc_path_origin` string
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
WITH SERDEPROPERTIES (
'serialization.format' = '1',
'input.regex' = 'doc_*.json'
) LOCATION 's3://mybucket/raw/'
TBLPROPERTIES ('has_encrypted_data'='false');
我也在找同样的东西。不幸的是,这是不可能的,因为 s3 api 不是那么友好的通配符(需要扫描客户端的所有密钥,这很慢)。 athena 的文档还声明不支持此功能。
我的桶曾经有这个结构:
mybucket/raw/i1.json
mybucket/raw/i2.json
使用 Amazon Athena 使用下面的代码创建 table.
CREATE EXTERNAL TABLE IF NOT EXISTS myclients.big_clients (
`id_number` string,
`txt` string,
...
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
WITH SERDEPROPERTIES (
'serialization.format' = '1',
) LOCATION 's3://mybucket/raw/'
TBLPROPERTIES ('has_encrypted_data'='false');
现在我在存储桶结构中遇到一些迁移问题。
桶中的新结构如下所示。
mybucket/raw/1/i1.json
mybucket/raw/1/docs/doc_1.json
mybucket/raw/1/docs/doc_2.json
mybucket/raw/1/docs/doc_3.json
mybucket/raw/2/i2.json
mybucket/raw/2/docs/doc_1.json
mybucket/raw/2/docs/doc_2.json
我希望我现在可以创建两个 table(与迁移前相同的 table 和一个仅包含文档的新文件。) 有什么方法可以做到这一点而不必在另一个文件夹中重新排列我的文件? 我正在为创建 table.
的存储桶文件搜索某种通配符CREATE EXTERNAL TABLE IF NOT EXISTS myclients.big_clients (
`id_number` string,
`txt` string,
...
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
WITH SERDEPROPERTIES (
'serialization.format' = '1',
'input.regex' = 'i*.json'
) LOCATION 's3://mybucket/raw/'
TBLPROPERTIES ('has_encrypted_data'='false');
CREATE EXTERNAL TABLE IF NOT EXISTS myclients.big_clients_docs (
`dt` date,
`txt` string,
`id_number` string,
`s3_doc_path` string,
`s3_doc_path_origin` string
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
WITH SERDEPROPERTIES (
'serialization.format' = '1',
'input.regex' = 'doc_*.json'
) LOCATION 's3://mybucket/raw/'
TBLPROPERTIES ('has_encrypted_data'='false');
我也在找同样的东西。不幸的是,这是不可能的,因为 s3 api 不是那么友好的通配符(需要扫描客户端的所有密钥,这很慢)。 athena 的文档还声明不支持此功能。