Apache Drill 使用 S3 数据源速度慢得无法使用?
Apache Drill unusably slow with S3 data source?
我正在尝试将 Apache Drill 与 S3 存储桶一起使用,但速度非常慢。
我有大约 20,000 个 JSON 文件。我可以在几秒钟内在本地从他们那里得到结果,例如:
> select count(*) from dfs.`/path/to/my/files/*.json`;
returns 不到 2 秒后。
即使在 10 分钟后,尝试 运行 对 S3 存储桶中完全相同的文件进行完全相同的查询也无法完成:
> select count(*) from s3.`releases`;
这是为什么?我认为 Drill 的全部意义在于它在大数据集上的速度很快。
我的 S3 连接本身没问题,例如SHOW files
在合理的时间内向我展示了我的可用文件夹,而且我的网络连接也没有任何问题。
它不是您问题的直接答案,但如果您想查询 s3 存储桶并且您有大型数据集,您应该查看 athena
我正在尝试将 Apache Drill 与 S3 存储桶一起使用,但速度非常慢。
我有大约 20,000 个 JSON 文件。我可以在几秒钟内在本地从他们那里得到结果,例如:
> select count(*) from dfs.`/path/to/my/files/*.json`;
returns 不到 2 秒后。
即使在 10 分钟后,尝试 运行 对 S3 存储桶中完全相同的文件进行完全相同的查询也无法完成:
> select count(*) from s3.`releases`;
这是为什么?我认为 Drill 的全部意义在于它在大数据集上的速度很快。
我的 S3 连接本身没问题,例如SHOW files
在合理的时间内向我展示了我的可用文件夹,而且我的网络连接也没有任何问题。
它不是您问题的直接答案,但如果您想查询 s3 存储桶并且您有大型数据集,您应该查看 athena