使用 Lucene.NET 限制数据

Question

我们正在使用 Sql Server 2012 全文索引，但是我们想将我们的数据库移动到 Sql Azure。使用迁移工具它告诉我们全文索引与 Sql Azure 不兼容（即使是预览版的 v12 也不支持它，所以看起来他们并不打算支持它）。

因此，我们正在寻找替代方案，目前我发现的最佳方案是将 Lucene.NET 与 AzureDirectory (https://azuredirectory.codeplex.com) 结合使用。这将允许我们将索引存储在 blob 存储中，并将其缓存在托管网站（也在 Azure 中）的 VM 的本地文件系统上。

我们遇到的问题是，我们打算索引的数据是诸如新闻报道之类的项目，由于我们的发布模型限制项目仅对一部分用户可见，因此所有用户都看不到这些项目.在搜索新闻报道时使用全文索引，我们可以通过简单地连接对他们可见的内容来限制使用搜索的数据，但是使用 Lucene 我们将无法做到这一点。

我们提出的想法是在索引中获取新闻故事，其中包含允许查看该新闻故事的一组 UserId，恐怕我对 Lucene 很陌生，我无法找到最好的方法为此，我们正在为这样的新闻故事添加索引：

  document.Add(new Field("Title",
               news.Title,
               Field.Store.YES,
               Field.Index.ANALYZED,
               Field.TermVector.NO));
  document.Add(new Field("Content",
               news.Content,
               Field.Store.YES,
               Field.Index.ANALYZED,
               Field.TermVector.NO));

但是，如果我们有一个定义为

的用户 ID 集合

IEnumerable<int>

我们如何将这些添加到新闻故事索引中，然后有效地搜索给定的用户 ID。此外，如果我们针对 lucene 文档添加 100 或 1000 的 UserId，性能会受到什么影响。有没有比沿着这条路走更好的方法，因为这可能是一个糟糕的主意（可能是一个糟糕的主意）？

Answer 1

我在迁移到 Azure 时也运行遇到了这个问题，最终得到了相同的权限模型。由于您的 userIds 是整数并且不会有特殊字符，因此您可以依赖许多 Lucene(.net) 分析器，例如 StandardAnalyzer 和 WhitespaceAnalyzer 来将 ID 列表拆分为术语，只要您输入一个细绳。只需使用 space 或逗号分隔每个 ID，具体取决于分析器将拆分的内容。

您应该能够像这样简单地为 ID 编制索引...

IEnumerable<int> userIds = new int[] { 123, 456, 789 };

document.Add(new Field("AllowedUserIDs",
 String.Join(" ", userIds), 
 Field.Store.NO, 
 Field.Index.ANALYZED_NO_NORMS));

然后确保使用 TermQuery 进行查询以匹配整个术语 (ID)。像...

int currentUserID = 123;
string queryString = "airplane";

BooleanQuery query = new BooleanQuery();
query.Add(new TermQuery(new Term("AllowedUserIDs", currentUserID.ToString())), Occur.MUST);
query.Add(new TermQuery(new Term("Title", queryString)), Occur.SHOULD);
query.Add(new TermQuery(new Term("Content", queryString)), Occur.SHOULD);

我不能非常具体地谈论性能问题，但我们的列表中有几百个 ID，自从我们添加它以来它似乎没有影响查询时间。真的跟搜几百几千字的新闻文章没什么区别

使用 Lucene.NET 限制数据

Limiting Data With Lucene.NET

lucene.net

full-text-search

azure-sql-database