使用 SOLR 部分索引 Cassandra table
Partially indexing Cassandra table with SOLR
我们的 Cassandra (DSE 4.7) 集群中的 table 之一包含超过 150 亿条记录。考虑到我们拥有的服务器数量 - 不可能用 Solr 对它们全部进行索引。
那么,是否有可能以某种方式索引数据 partially/sample and/or 开始索引然后 "pause" 索引比方说在 500 毫米记录之后?
我假设另一种选择是只转储 500 毫米记录并将它们重新加载到另一个 "temp" table 并索引...?
关键是,我想开始编制索引并具有搜索能力,并且随着我们的发展和添加更多服务器 - 能够编制更多索引并再次暂停。
这可能吗?
谢谢!
无法只索引几行。我同意并行 table(可能与 TTL)可能是你最好的选择。
这里有一些(非常有效的)策略可以最小化 DSE 搜索索引的大小。如果你不使用 Highlighting (term...) or Boosts (omitnorms):
这样的东西,你可能可以将它缩小 ~50%
• 设置 termVectors="false"
• 设置 termPositions="false"
• 设置 termOffsets="false"
• 设置 omitNorms="true"
• 仅索引您打算搜索的字段
我们的 Cassandra (DSE 4.7) 集群中的 table 之一包含超过 150 亿条记录。考虑到我们拥有的服务器数量 - 不可能用 Solr 对它们全部进行索引。
那么,是否有可能以某种方式索引数据 partially/sample and/or 开始索引然后 "pause" 索引比方说在 500 毫米记录之后?
我假设另一种选择是只转储 500 毫米记录并将它们重新加载到另一个 "temp" table 并索引...?
关键是,我想开始编制索引并具有搜索能力,并且随着我们的发展和添加更多服务器 - 能够编制更多索引并再次暂停。
这可能吗?
谢谢!
无法只索引几行。我同意并行 table(可能与 TTL)可能是你最好的选择。
这里有一些(非常有效的)策略可以最小化 DSE 搜索索引的大小。如果你不使用 Highlighting (term...) or Boosts (omitnorms):
这样的东西,你可能可以将它缩小 ~50%• 设置 termVectors="false"
• 设置 termPositions="false"
• 设置 termOffsets="false"
• 设置 omitNorms="true"
• 仅索引您打算搜索的字段