以特定方式自定义 azure 搜索评分
Customize azure search scoring in a specific way
考虑一个场景,其中所有文档都有以下字段
要求是对于电子邮件,分数应为 100(如果完全匹配)或 0。
对于剩余字段,它是基于编辑距离的 0 到 100。
假设索引中的记录如下
1.abcd@gmail.com,Peterr,Parker,Developer
2.xyz@yahoo.com,史蒂夫,史密斯,经理
查询是对所有字段进行模糊搜索,参数如下
abcd@gmail.com,Pet,Par,Devl
搜索结果应该有第一个记录的分数,如
电子邮件得分+姓氏得分+名字得分+头衔得分
=100+50(大约'Peterr and Pet'的编辑距离)+50(大约'Peterr and Parker'的编辑距离)+44(大约'Devl and Developer'的编辑距离)
=244
同样,搜索结果也应该有类似的分数。
我刚刚检查了 Azure 搜索评分有权重,但我认为这些在这种情况下不会有太大帮助。我们正在寻找的主要是找到一种方法,使每个记录的搜索评分返回通过 Azure 搜索将按照我上面讨论的分数
澄清一下,您似乎需要的评分公式是查询词和索引词之间编辑距离的函数——距离越短,分数越高。不幸的是,这在 Azure 搜索中是不可能的。
Azure 搜索引擎分两个阶段执行搜索查询:检索和评分。
在检索期间从给定的查询词中搜索由 lexical analyzer are looked up in the inverted index. Documents that had those terms are returned. When you use fuzzy search we expand your search query by adding terms from the inverted index that are within edit distance 处理的查询词 - 模糊扩展。这样您的查询可以匹配更多文档。
在评分过程中,我们使用 Lucene scoring formula. This formula is based on TF/IDF 为检索到的文档分配相关性分数。实际上,这意味着匹配罕见术语的文档将在结果集中排名靠前。
重要的是要知道 Lucene 评分公式 仅适用于匹配原始查询词和通过模糊扩展添加的词的文档 。匹配通过前缀扩展或 regex/wildcard 扩展添加的术语的文档将获得恒定分数 1。这样,这些文档将出现在结果集中,但不会影响基于术语频率的排名。
希望对您有所帮助
考虑一个场景,其中所有文档都有以下字段
要求是对于电子邮件,分数应为 100(如果完全匹配)或 0。 对于剩余字段,它是基于编辑距离的 0 到 100。
假设索引中的记录如下
1.abcd@gmail.com,Peterr,Parker,Developer 2.xyz@yahoo.com,史蒂夫,史密斯,经理
查询是对所有字段进行模糊搜索,参数如下 abcd@gmail.com,Pet,Par,Devl
搜索结果应该有第一个记录的分数,如
电子邮件得分+姓氏得分+名字得分+头衔得分
=100+50(大约'Peterr and Pet'的编辑距离)+50(大约'Peterr and Parker'的编辑距离)+44(大约'Devl and Developer'的编辑距离)
=244
同样,搜索结果也应该有类似的分数。
我刚刚检查了 Azure 搜索评分有权重,但我认为这些在这种情况下不会有太大帮助。我们正在寻找的主要是找到一种方法,使每个记录的搜索评分返回通过 Azure 搜索将按照我上面讨论的分数
澄清一下,您似乎需要的评分公式是查询词和索引词之间编辑距离的函数——距离越短,分数越高。不幸的是,这在 Azure 搜索中是不可能的。
Azure 搜索引擎分两个阶段执行搜索查询:检索和评分。
在检索期间从给定的查询词中搜索由 lexical analyzer are looked up in the inverted index. Documents that had those terms are returned. When you use fuzzy search we expand your search query by adding terms from the inverted index that are within edit distance 处理的查询词 - 模糊扩展。这样您的查询可以匹配更多文档。
在评分过程中,我们使用 Lucene scoring formula. This formula is based on TF/IDF 为检索到的文档分配相关性分数。实际上,这意味着匹配罕见术语的文档将在结果集中排名靠前。
重要的是要知道 Lucene 评分公式 仅适用于匹配原始查询词和通过模糊扩展添加的词的文档 。匹配通过前缀扩展或 regex/wildcard 扩展添加的术语的文档将获得恒定分数 1。这样,这些文档将出现在结果集中,但不会影响基于术语频率的排名。
希望对您有所帮助