Azure 搜索:法语或任何语言分析器是否支持变位?

Azure Search: Is there support for conjugation in the French or any language analyzer?

我面临法语的业务需求,即必须支持变位。例如,如果用户搜索“Être”,那么它还应该找到动词形式的变体(声音、语气、时态等)。

根据我所见,Azure 搜索 fr.microsoft 分析器(或在此之上构建的自定义分析器)支持它。我已通过搜索“Être”并查找包含以下内容的文档验证了这一点:est、EST、sera、sont 和 etre。

但是,它找不到包含以下内容的文档:ete、etes、Ete、Etes。

我搜索并找到了这个记录Être 的简单和复合形式的页面。 http://conjugator.reverso.net/conjugation-french-verb-%C3%AAtre.html

Microsoft 法语语言分析器似乎并不支持所有这些。这是真的?如果是这样,那么我如何确保所有内容都得到处理?我是否需要添加 "ete" 和 "etes" 作为“Être”的同义词?如果是这样,我是否还需要添加 "Ete" 和 "Etes" 作为“Être”的同义词?

有没有办法让我获得有关 Azure 搜索中所有法语动词支持的文档?

最后但同样重要的是,我如何更好地理解“Être”的所有变位?我尝试使用分析器 API...

{ "analyzer": "fr.microsoft",   "text": "Être" }

但我只收到以下回复:

{
  "@odata.context": "https://one-adscope-search-poc2.search.windows.net/$metadata#Microsoft.Azure.Search.V2016_09_01.AnalyzeResult",
  "tokens": [
    {
      "token": "etre",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "être",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    }
  ]
}

在 Azure 搜索中,我们的语言分析器使用规范化形式来匹配单词的不同变化。例如,在编制索引时,Microsoft 分析器将单词 'sont' 分析为 'etre',并对单词的原始形式和 normalized/lemmatized 形式编制索引。在查询时,假设您正在使用 'est' 发出搜索查询。单词 'est' 也分析到 'etre' 并找到包含 'sont' 的文档。您分享的 Analyze API 的回复符合这一预期。

遗憾的是,我们没有在文档中提供详尽的变位列表。您可以使用您的文件样本并使用来自分析 API 的响应来生成列表。

最后,您可以使用我们的同义词功能来填补缺失的空白。我注意到不匹配的单词(ete、etes、Ete、Etes)都分析为基本形式 'ete'。您可以定义一个同义词规则,说明 'etre' 和 'ete' 是等价的。同义词功能目前处于私人预览阶段。如果您想试用

,请随时通过 nateko AT microsoft 与我联系

希望这对您有所帮助。

内特