信息检索中的波特词干算法
Porter stemmer algorithm in information-retrieval
我需要为我的应用程序创建简单的搜索引擎。让我们将其简化为以下内容:我们有一些文本(很多),我需要搜索并显示相关结果。
我基于这个很棒的 article 扩展了一些东西,它对我来说效果很好。
但是我在将单词词干化为术语时遇到了问题。例如单词 "annotation"、"annotations" 等将被词干化为 "annot",但假设您尝试搜索某些内容,您会看到意想不到的结果:
- "anno" - 没有
- "annota" - 没有
等等
只有单词"annot"会给出相关结果。那么,我应该如何改进我的搜索以获得预期的结果呢?因为"annot"包含"anno"而"annota"略多于"annot"。一直使用包含显然不是解决方案
如果在第一种情况下我可以使用一些 Ternary search tree,在第二种情况下我不知道该怎么做。
任何想法都会很有帮助。
更新
oleksii has pointed me to n-grams ,这可能对我有用,但我不知道如何正确索引 n-gram。
所以问题:
- 哪种数据结构最符合我的需要
- 如何正确索引我的 n-grams
词干提取在这里可能不太相关。词干提取会将复数形式转换为单数形式。
假设你有一个分词器、一个词干分析器和一个清理器(删除停用词,可能是标点符号和数字,短词等)你正在看的是全文搜索。我建议您获得现成的解决方案(如 Elasticsearch、Lucene、Solr),但如果您喜欢 DIY 方法,我可以建议以下简单的实现。
步骤 1
创建一个面向搜索的分词器。一个例子是 n-gram 分词器。它会把你的话分成以下序列:
annotation
1 - [a, n, o, t, a, i]
2 - [an, nn, no, ot, ...]
3 - [ann, nno, not, ota, ...]
4 - [anno, nnot, nota, otat, ...]
....
步骤 2
对 n-gram 进行排序以提高查找效率
步骤 3
使用二进制搜索搜索 n-gram 以获得精确匹配
我需要为我的应用程序创建简单的搜索引擎。让我们将其简化为以下内容:我们有一些文本(很多),我需要搜索并显示相关结果。
我基于这个很棒的 article 扩展了一些东西,它对我来说效果很好。
但是我在将单词词干化为术语时遇到了问题。例如单词 "annotation"、"annotations" 等将被词干化为 "annot",但假设您尝试搜索某些内容,您会看到意想不到的结果:
- "anno" - 没有
- "annota" - 没有 等等
只有单词"annot"会给出相关结果。那么,我应该如何改进我的搜索以获得预期的结果呢?因为"annot"包含"anno"而"annota"略多于"annot"。一直使用包含显然不是解决方案
如果在第一种情况下我可以使用一些 Ternary search tree,在第二种情况下我不知道该怎么做。
任何想法都会很有帮助。
更新
oleksii has pointed me to n-grams
所以问题:
- 哪种数据结构最符合我的需要
- 如何正确索引我的 n-grams
词干提取在这里可能不太相关。词干提取会将复数形式转换为单数形式。
假设你有一个分词器、一个词干分析器和一个清理器(删除停用词,可能是标点符号和数字,短词等)你正在看的是全文搜索。我建议您获得现成的解决方案(如 Elasticsearch、Lucene、Solr),但如果您喜欢 DIY 方法,我可以建议以下简单的实现。
步骤 1
创建一个面向搜索的分词器。一个例子是 n-gram 分词器。它会把你的话分成以下序列:
annotation 1 - [a, n, o, t, a, i] 2 - [an, nn, no, ot, ...] 3 - [ann, nno, not, ota, ...] 4 - [anno, nnot, nota, otat, ...] ....
步骤 2
对 n-gram 进行排序以提高查找效率
步骤 3
使用二进制搜索搜索 n-gram 以获得精确匹配