普林斯顿 Wordnet 数据库 - 两个不同的同义词集标识符?

Princeton Wordnet database - two different synset identifiers?

我正在尝试理解 Princeton Wordnet 数据库中的不同标识符。我正在使用 3.1 版。您可以阅读结构 here 但我的重点是 synsets table.

The Synset Table The synsets table is one of the most important tables in the database. It is responsible for housing all the definitions within WordNet. Each row in the synset table has a synsetid, a definition, a pos (parts of speech field) and a lexdomainid (which links to the lexdomain table) There are 117373 synsets in the WordNet Database.

当我在 table 中搜索词 joy 时,我看到有四个不同的结果(2 个名词和 2 个动词)。从那里,我可以确定我正在寻找的 sense/meaning,也就是对应于以下含义的那个:

"the emotion of great happiness"

所以我现在找到了我要找的结果。这个结果的 synset id107542591,我可以搜索这个 id 来找到其他具有相同 sense/meaning 的单词。

但是,当我使用某些在线版本的 Wordnet 并在同义词集中搜索词时 "the emotion of great happiness",我看到了不同类型的标识符。这个标识符是 07527352-n

例如this site的左上角。在同一个站点的地址栏中,您会看到该标识符被称为同义词集 ID:&synset=07527352-n.

我想知道如何检索给定同义词集的第二种标识符。我已经通读了文档 here 并搜索了原始数据文件,但我无法弄明白。

谢谢!

有两件事正在发生。

首先,MySQL 不喜欢以 0 开头的 ID,因此它们以 1 开头。(具体来说,名词前缀为 1,动词前缀为 2,形容词前缀为 3,副词前缀为 4:请参见http://wordnet-rdf.princeton.edu/ )

处的 WordNet 标识符部分

其次,07542591 来自 WordNet 3.1(我检查了原始 WordNet 文件和 SQL 文件,它们都使用了这个)。

“07527352”来自旧版本的 WordNet。对于中文 WordNet,我相信他们使用 WordNet 3.0。 http://compling.hss.ntu.edu.sg/cow/

附加: 有更多信息。奇怪的是,我还无法跟踪简单的 3.0 到 3.1 的转换 table...但我确定我已经看到了。