如何将 parquet 格式的文件加载和索引到 elasticsearch?
How to load and index files with parquet format to elasticsearch?
我有一个非常大的 parquet 文件,我需要将其导入到 elasticsearch。我在网上搜索但找不到有用的结果。不知道最新版本的elasticsearch是否支持这种格式?
一种方法是使用 ConvertUtils
and call the convertParquetToCSV()
方法。
然后,当您的 CSV 文件生成后,您可以简单地使用带有
的 Logstash 来使用它
- 一个
file
input,
- 一个
csv
filter 和
- 一个
elasticsearch
output.
示例配置:
input {
file {
path => "/path/to/your/parquet/as/csv/file"
}
}
filter {
csv {
columns => ["col1", "col2"]
}
}
output {
elasticsearch {
hosts => ["localhost:9200"]
}
}
我是 Moshe/elasticsearch_loader
的作者
我为这个确切的问题写了 ESL。
可以用pip下载:
pip install elasticsearch-loader[parquet]
然后您将能够通过发出以下命令将 parquet 文件加载到 elasticsearch 中:
elasticsearch_loader --index incidents --type incident parquet file1.parquet file2.parquet
我有一个非常大的 parquet 文件,我需要将其导入到 elasticsearch。我在网上搜索但找不到有用的结果。不知道最新版本的elasticsearch是否支持这种格式?
一种方法是使用 ConvertUtils
and call the convertParquetToCSV()
方法。
然后,当您的 CSV 文件生成后,您可以简单地使用带有
的 Logstash 来使用它- 一个
file
input, - 一个
csv
filter 和 - 一个
elasticsearch
output.
示例配置:
input {
file {
path => "/path/to/your/parquet/as/csv/file"
}
}
filter {
csv {
columns => ["col1", "col2"]
}
}
output {
elasticsearch {
hosts => ["localhost:9200"]
}
}
我是 Moshe/elasticsearch_loader
的作者
我为这个确切的问题写了 ESL。
可以用pip下载:
pip install elasticsearch-loader[parquet]
然后您将能够通过发出以下命令将 parquet 文件加载到 elasticsearch 中:
elasticsearch_loader --index incidents --type incident parquet file1.parquet file2.parquet