如何在没有库的情况下在 WorNet 的 nt 文件中找到词典编纂者 ID

how to find lexicographer id into WorNet's nt file without library

我正在尝试 link VerbNet 和 WordNet 使用他们提供的文件直接处理数据:

VerbNet => http://verbs.colorado.edu/verb-index/vn/verbnet-3.3.tar.gz

WordNet => http://wordnet-rdf.princeton.edu/static/wordnet.nt.gz

VerbNet 中的动词通过 sense_key:

对 WordNet 有 link

e.g. live%2:31:00::

这将是 sense_key 的结构:

(lemma)%(part_of_speech_number):(lexical_file_number):(lexicographer_id)::

解析nt文件的n个三元组,我找到了除lexicographer_id之外的所有数据:

lemma => live 
part_of_speech_number => 2 
lexical_file_number => 31
lexicographer_id => ??

解析 wordnet.nt 文件似乎无法为您提供此信息。

如果 Wordnet 3.1 数据库是从 http://wordnetcode.princeton.edu/wn3.1.dict.tar.gz (link in https://wordnet.princeton.edu/download/current-version) 下载的,您会在那里找到包含如下条目的文件 "index.sense":

bethel%1:06:00:: 02836245 1 0
bethink%2:31:00:: 00685046 2 1
bethink%2:39:00:: 02171205 1 3
bethlehem%1:15:00:: 08813084 2 0

此结构的当前描述在 https://wordnet.princeton.edu/documentation/senseidx5wn

该行的第一个参数是 VerbNet 中使用的 sense_key。第二个参数是 synset_offset,它与文件 wordnet.nt 中的同义词集标识符一致。

从文件 "index.sense" 中,您还可以获得与结构 "word.pos.sense_number" 匹配的意义号,例如:"man.n.02"