有效地检查大型数据集的子字符串

Check for substring efficiently for large data sets

我有:

我需要:

我应该选择哪种方法?

方法一(二级索引):

方法 2(Java 作业 - 蛮力):

更好的方法是使用像 SolR 这样的搜索引擎我们的 ElasticSearch。全文搜索是他们的专长。您可以轻松地将数据从 cassandra 转储到 Elasticsearch 并在 ElasticSearch 之上实施您的 java 作业。

编辑:

使用 Cassandra,您可以将结果查询作为 JSON 请求,而 Elasticsearch 'speak' 仅在 JSON 中,因此您将能够非常轻松地传输数据。

Elasticsearch

SolR