使用 SOLR 部分索引 Cassandra table

Partially indexing Cassandra table with SOLR

我们的 Cassandra (DSE 4.7) 集群中的 table 之一包含超过 150 亿条记录。考虑到我们拥有的服务器数量 - 不可能用 Solr 对它们全部进行索引。

那么,是否有可能以某种方式索引数据 partially/sample and/or 开始索引然后 "pause" 索引比方说在 500 毫米记录之后?

我假设另一种选择是只转储 500 毫米记录并将它们重新加载到另一个 "temp" table 并索引...?

关键是,我想开始编制索引并具有搜索能力,并且随着我们的发展和添加更多服务器 - 能够编制更多索引并再次暂停。

这可能吗?

谢谢!

无法只索引几行。我同意并行 table(可能与 TTL)可能是你最好的选择。

这里有一些(非常有效的)策略可以最小化 DSE 搜索索引的大小。如果你不使用 Highlighting (term...) or Boosts (omitnorms):

这样的东西,你可能可以将它缩小 ~50%

• 设置 termVectors="false"

• 设置 termPositions="false"

• 设置 termOffsets="false"

• 设置 omitNorms="true"

• 仅索引您打算搜索的字段