使用 `LIKE` 时，Amazon Athena 中的全文查询超时

Question

像这样在 Athena 中获取全文查询的超时错误...

SELECT count(textbody) FROM "email"."some_table" where textbody like '% some text to seach%'

有什么办法可以优化吗？

更新：

创建 table 语句：

CREATE EXTERNAL TABLE `email`.`email5_newsletters_04032019`(
`nesletterid` string,
`name` string,
`format` string,
`subject` string,
`textbody` string,
`htmlbody` string,
`createdate` string,
`active` string,
`archive` string,
`ownerid` string
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
'serialization.format' = ',',
'field.delim' = ',',
'ESCAPED BY' = '\'
) LOCATION 's3://some_bucket/email_backup_updated/email5/'
TBLPROPERTIES ('has_encrypted_data'='false');

以及 S3 存储桶内容：

# aws s3 ls s3://xxx/email_backup_updated/email5/ --human
2020-08-22 15:34:44    2.2 GiB email_newsletters_04032019_updated.csv.gz

这个文件中有1100万条记录。该文件可以在 Redshift 中在 30 分钟内导入，并且在 redshift 中一切正常。我会更喜欢使用 Athena！

Answer 1

CSV 不是一种与 presto 引擎集成得很好的格式，因为查询需要读取整行才能到达单个列。一种优化 athena 使用的方法，也可以为您节省大量存储成本，是切换到列式存储格式，如 parquet 或 orc，您实际上可以通过查询来实现：

CREATE TABLE `email`.`email5_newsletters_04032019_orc`
WITH (
      external_location = 's3://my_orc_table/',
      format = 'ORC')
AS SELECT * 
FROM `email`.`email5_newsletters_04032019`;

然后在新 table:

上重新运行上面的查询

SELECT count(textbody) FROM "email"."email5_newsletters_04032019_orc" where textbody like '% some text to seach%'

使用 `LIKE` 时，Amazon Athena 中的全文查询超时

Full text query in Amazon Athena is timing-out when using `LIKE`

amazon-web-services

presto

amazon-athena