改进基于上下文的搜索

Improving context-based search

我正在研究使用 WordNet 对单个词实施基于上下文的搜索的可能性。这个想法是这样的:

用户搜索病毒,应该return搜索词的上下文/应用,在我们的例子中是健康和计算。用户现在选择上下文,它现在根据所选上下文检索含义。我一直在检查使用 WordNet 的可能性,但 WordNet 似乎没有这种能力。我还研究了词义消歧,但它的句子不是一个词。我如何实现这一目标?是否有任何字典能够实现这一目标?关于其他解决方法有什么想法吗?

消歧是一个很大的计算问题。如果您愿意做一些相对简单的事情,我会向您指出 BabelNet and Babelfy.

第一个是庞大的百科词典,第二个是BabelNet团队开发的消歧系统

使用 BabelNet,你有几个关于单词的元数据,比如类别,它还有一个 Java API。也许你可以从中得到一些东西。

此外,我建议您尝试一些文本分析软件,例如 MeaningCloud

我想出了如何实现这一点,我得到了这个名为扩展 wordnet 域 (XWN) 的项目 http://adimen.si.ehu.es/web/XWND

根据作者的说法,"is an ongoing work aiming to automatically improve WordNet Domains",Wordnet 域是另一个与 XWN 具有相同用途但仅限于 wordnet 2.0 词典文件的项目。 XWN 与 Wordnet 3.0 一起工作 我已经对其进行了测试,但我无法弄清楚为单词选择适当域的标准。另一个问题是用内存中的偏移量加载域需要花费大量时间。这是因为每个域的总偏移量约为 1900 万。 XWN 还包含大约 180 个域。每个域中都有相同的词,但权重不同。

例如,一个词让 say virus 在 computer_science 中的权重可能为 0.00007899,在生物学中的权重为 0.08766,在声学中的权重为 7.9866,在法律中的权重为 4.97655。我还观察到权重是按升序排列的,每个域中的前几个词都与该域密切相关。因此,我设法使用了它,但效果不佳,因为我还没有想出选择域的标准,但是对于所有域都已选择并仅检索与搜索词相关的域的含义。

我希望这对某些人有所帮助,并且希望有人能理解我所说的标准。但现在我建议按照作者使用的相同方向改进 Wordnet 域 http://wndomains.fbk.eu,即匹配单词和域。