将本地 json 大文件注入 Druid

Inject big local json file into Druid

这是我第一次体验德鲁伊。

我在本地机器上安装了 Druid。 现在我想做一些查询性能测试。我的测试数据是一个巨大的本地json文件1.2G。 这个想法是将它加载到德鲁伊中,并且 运行 需要 SQL 查询。该文件正在被解析并成功处理(我正在使用基于 Web 的 Druid UI 提交注入任务)。

我 运行 遇到的问题是数据源大小。 1.2G 的原始 json 数据产生 35M 的数据源是没有意义的。本地 运行ning Druid 设置是否有任何限制。我认为测试数据已部分处理。不幸的是没有找到任何相关的配置来改变它。如果有人能够阐明这一点,我们将不胜感激。

提前致谢

对于德鲁伊,预计压缩率为 80-90%。我已经看到 2GB CSV 文件减少到 200MB 德鲁伊数据源。

你能查询计数以确保所有数据都被提取了吗? All please disable approximate algorithm hyper-log-log to get exact count.Druid 如果您将 "useApproximateCountDistinct" 设置为 "false",SQL 将通过查询上下文或通过经纪人配置。(参考http://druid.io/docs/latest/querying/sql.html

还可以检查日志中的异常和错误消息。如果它在摄取特定 JSON 记录时遇到问题,它会跳过该记录。