句子相似度 - 如何使用 WordNet 计算 subsumer 的深度?
Sentence similarity - How to calculate the depth of subsumer using WordNet?
我尝试建立一个工具来计算两个词之间的相似度,我发现有一个来自曼彻斯特城市大学的公式如下:
直到现在,我仍然很困惑如何在层次语义网络中得到 h ,它是 subsumer 的深度。
据我理解,h是从top word到某个单词的路径长度,参考作者,top word是'entity' for NOUN。
但是另一种词,如 ADJ、ADV、VERB...怎么样?
如果我们已经有了最上面的词,我们如何列出从它到我们需要计算的词的路径
非常感谢您的回答。
谢谢
每次我试图理解 Wordnet 层次结构时,我都会发现一些让我之前假设的一切都无效的东西:)
关于相似性,如果您正在使用 Python 和 NLTK,我建议您使用提供的相似性指标,如果没有,这些可能是了解其工作原理的良好开端。
在此 link 中,向下滚动到相似度:
http://www.nltk.org/howto/wordnet.html
我想补充更多我刚刚发现的细节。
这些细节足以让我搜索,但可能与上述问题不完全相同,但我想我需要分享给将来需要它的人。
'Entity'不仅是Noun的词根,而且是任何词的词根,即使是动词,ADJ,ADV....
- Ex 单词 'kiss' 的完整路径:ROOT#n#1 < entity#n#1 < abstraction#n#6 < psychological_feature #n#1 < event#n#1 < act#n#2 < touch#n#5 < kiss#n#1
- 单词 'kick' 的 EX 完整路径:ROOT#n#1 < entity#n#1 < abstraction#n#6 < psychological_feature #n#1 < event#n#1 < act#n#2 < speech_act#n#1 < objection#n#2 < kick#n#4
- 要计算任何单词的深度,我们需要从开头的单词('entity')开始计算,并基于Word Net层次数据库。
回到上面的例子,h('kiss'和'kick'的subsummer的长度)是6,也就是从树顶节点根到单词'act'的计数
我尝试建立一个工具来计算两个词之间的相似度,我发现有一个来自曼彻斯特城市大学的公式如下:
直到现在,我仍然很困惑如何在层次语义网络中得到 h ,它是 subsumer 的深度。 据我理解,h是从top word到某个单词的路径长度,参考作者,top word是'entity' for NOUN。 但是另一种词,如 ADJ、ADV、VERB...怎么样? 如果我们已经有了最上面的词,我们如何列出从它到我们需要计算的词的路径
非常感谢您的回答。 谢谢
每次我试图理解 Wordnet 层次结构时,我都会发现一些让我之前假设的一切都无效的东西:) 关于相似性,如果您正在使用 Python 和 NLTK,我建议您使用提供的相似性指标,如果没有,这些可能是了解其工作原理的良好开端。
在此 link 中,向下滚动到相似度: http://www.nltk.org/howto/wordnet.html
我想补充更多我刚刚发现的细节。 这些细节足以让我搜索,但可能与上述问题不完全相同,但我想我需要分享给将来需要它的人。
'Entity'不仅是Noun的词根,而且是任何词的词根,即使是动词,ADJ,ADV....
- Ex 单词 'kiss' 的完整路径:ROOT#n#1 < entity#n#1 < abstraction#n#6 < psychological_feature #n#1 < event#n#1 < act#n#2 < touch#n#5 < kiss#n#1
- 单词 'kick' 的 EX 完整路径:ROOT#n#1 < entity#n#1 < abstraction#n#6 < psychological_feature #n#1 < event#n#1 < act#n#2 < speech_act#n#1 < objection#n#2 < kick#n#4
- 要计算任何单词的深度,我们需要从开头的单词('entity')开始计算,并基于Word Net层次数据库。
回到上面的例子,h('kiss'和'kick'的subsummer的长度)是6,也就是从树顶节点根到单词'act'的计数