如何将 parquet 格式的文件加载和索引到 elasticsearch?

How to load and index files with parquet format to elasticsearch?

我有一个非常大的 parquet 文件,我需要将其导入到 elasticsearch。我在网上搜索但找不到有用的结果。不知道最新版本的elasticsearch是否支持这种格式?

一种方法是使用 ConvertUtils and call the convertParquetToCSV() 方法。

然后,当您的 CSV 文件生成后,您可以简单地使用带有

的 Logstash 来使用它

示例配置:

input {
    file {
        path => "/path/to/your/parquet/as/csv/file"
    }
}
filter {
    csv {
        columns => ["col1", "col2"]
    }
}
output {
    elasticsearch {
        hosts => ["localhost:9200"]
    }
}

我是 Moshe/elasticsearch_loader
的作者 我为这个确切的问题写了 ESL。
可以用pip下载:

pip install elasticsearch-loader[parquet]

然后您将能够通过发出以下命令将 parquet 文件加载到 elasticsearch 中:

elasticsearch_loader --index incidents --type incident parquet file1.parquet file2.parquet