在 Solr 中索引 ~1TB 的富文本文档的最佳方法是什么?

What's the best way to index ~1TB of richtext douments in Solr?

我正在尝试为 doc、pdf、xls、msg 和其他文件的大约 120 万个文件 (1TB) 建立索引。我正在使用 Java 爬虫,它遍历每个文件并使用执行 update/extract cURL 命令的进程将其发布到 Solr,并定期提交。

目前编制索引大约需要 75 个小时,时间长得令人尴尬。我在网上看到了其他提高索引速度的方法,但考虑到我们索引的是富文本文档,而不仅仅是文本或 CSV,我不确定它们中的哪一种适用于我们的情况。

这些文件最大为 25MB,可能有数千页的长度,所以我认为拖慢速度的原因是 Tika 提取了所有文本。我不确定如何解决这个问题,最终我们将不得不使用 Tika 以某种方式获取内容。

我看到帖子说多线程可以用于索引,但是我在这方面没有太多经验,所以在我尝试通过创建一种方法来做到这一点之前,我想我会看看是否有人有任何想法关于另一种可能增加索引时间的方法(或者我错过的明显的东西)。

谢谢

也许您应该考虑使用 Hadoop 构建索引。此选项可从 Solr 4.9(参见问题 SOLR-1045)获得,并允许使用多台机器创建索引。