Apache Solr 支持 ORC 文件格式
Apache Solr support for ORC file format
我在 Hive 中有一堆表,存储为 ORC。我想在 SolrCloud 集合中索引他们的数据。
Solr 是否支持索引以 ORC 格式存储的数据?
我用谷歌搜索但没有结果。
看起来您希望 SolR 从特定的 Hive 文件格式读取数据。
您可能会以另一种方式看待问题,即使用 Hive 将数据 写入 SolR —— 从而让 Hive 负责实际输入文件格式的复杂性(无论是 ORC、Parquet、AVRO 还是其他——甚至是 HBase 数据文件)。
在 LucidWorks GitHub repo 中,您会找到一个标记为 hive-solr 的项目。看看。
我会接受 Samson 的回答。
总之,我对这个解决方案不是很满意。事实上,现在我仍然需要创建一个外部 table 手动声明原始 table 中的所有字段。在操作上,无异于从原来的开始新建一个table(存储的广告文本文件),索引新的文本文件,最后drop掉(当然,对于非常大的文件,这可能是个问题tables,这不是我的情况。
作为 ORC 一种自描述格式,Solr 可以直接从压缩文件中读取字段名称和数据。
我在 Hive 中有一堆表,存储为 ORC。我想在 SolrCloud 集合中索引他们的数据。
Solr 是否支持索引以 ORC 格式存储的数据? 我用谷歌搜索但没有结果。
看起来您希望 SolR 从特定的 Hive 文件格式读取数据。
您可能会以另一种方式看待问题,即使用 Hive 将数据 写入 SolR —— 从而让 Hive 负责实际输入文件格式的复杂性(无论是 ORC、Parquet、AVRO 还是其他——甚至是 HBase 数据文件)。
在 LucidWorks GitHub repo 中,您会找到一个标记为 hive-solr 的项目。看看。
我会接受 Samson 的回答。
总之,我对这个解决方案不是很满意。事实上,现在我仍然需要创建一个外部 table 手动声明原始 table 中的所有字段。在操作上,无异于从原来的开始新建一个table(存储的广告文本文件),索引新的文本文件,最后drop掉(当然,对于非常大的文件,这可能是个问题tables,这不是我的情况。
作为 ORC 一种自描述格式,Solr 可以直接从压缩文件中读取字段名称和数据。