理解词义消歧数据集格式
Understand the word sense disambiguation data set format
我正在尝试使用众所周知的 WSD 数据集(SemEval、SensEval)评估 WSD 模型。但是我不明白金钥匙文本文件的格式。
seneval3.gold.key.txt
d000.s000.t000 man%1:18:00::
d000.s000.t001 say%2:32:01::
d000.s001.t000 peer%2:39:00::
d000.s001.t001 companion%1:18:00::
d000.s001.t002 bleary%5:00:00:indistinct:00
d000.s001.t003 eye%1:08:00::
d000.s002.t000 have%2:40:00::
d000.s002.t001 ready%5:00:01:available:00
d000.s002.t002 answer%1:04:00::
d000.s002.t003 much%3:00:00::
d000.s002.t004 surprise%1:12:00::
d000.s002.t005 fit%1:26:00::
d000.s002.t006 coughing%1:26:00::
d000.s003.t000 man%1:18:00::
d000.s003.t001 drunk%3:00:00::
d000.s003.t002 crazy%5:00:00:insane:00
d000.s004.t000 newfound%5:00:00:new:00
我知道在第一行d000.s000.t000
通过查看数据文件谈论文档#0 句子#0 标记#0。
senseval3.data.xml
<sentence id="d000.s000">
<wf lemma="that" pos="DET">That</wf>
<wf lemma="'" pos="VERB">'s</wf>
<wf lemma="what" pos="PRON">what</wf>
<wf lemma="the" pos="DET">the</wf>
<instance id="d000.s000.t000" lemma="man" pos="NOUN">man</instance>
<wf lemma="have" pos="VERB">had</wf>
<instance id="d000.s000.t001" lemma="say" pos="VERB">said</instance>
<wf lemma="." pos=".">.</wf>
</sentence>
但是我不知道%
后面是什么意思,比如1:18:00::
for lemma man.
此答案是根据对此 SO post 的评论撰写的。
%
后面的数列就是lex_index。 Lex索引组成如下。
ss_type:lex_filenum:lex_id:head_word:head_id
更多信息在 WordNet documentation。
我正在尝试使用众所周知的 WSD 数据集(SemEval、SensEval)评估 WSD 模型。但是我不明白金钥匙文本文件的格式。
seneval3.gold.key.txt
d000.s000.t000 man%1:18:00::
d000.s000.t001 say%2:32:01::
d000.s001.t000 peer%2:39:00::
d000.s001.t001 companion%1:18:00::
d000.s001.t002 bleary%5:00:00:indistinct:00
d000.s001.t003 eye%1:08:00::
d000.s002.t000 have%2:40:00::
d000.s002.t001 ready%5:00:01:available:00
d000.s002.t002 answer%1:04:00::
d000.s002.t003 much%3:00:00::
d000.s002.t004 surprise%1:12:00::
d000.s002.t005 fit%1:26:00::
d000.s002.t006 coughing%1:26:00::
d000.s003.t000 man%1:18:00::
d000.s003.t001 drunk%3:00:00::
d000.s003.t002 crazy%5:00:00:insane:00
d000.s004.t000 newfound%5:00:00:new:00
我知道在第一行d000.s000.t000
通过查看数据文件谈论文档#0 句子#0 标记#0。
senseval3.data.xml
<sentence id="d000.s000">
<wf lemma="that" pos="DET">That</wf>
<wf lemma="'" pos="VERB">'s</wf>
<wf lemma="what" pos="PRON">what</wf>
<wf lemma="the" pos="DET">the</wf>
<instance id="d000.s000.t000" lemma="man" pos="NOUN">man</instance>
<wf lemma="have" pos="VERB">had</wf>
<instance id="d000.s000.t001" lemma="say" pos="VERB">said</instance>
<wf lemma="." pos=".">.</wf>
</sentence>
但是我不知道%
后面是什么意思,比如1:18:00::
for lemma man.
此答案是根据对此 SO post 的评论撰写的。
%
后面的数列就是lex_index。 Lex索引组成如下。
ss_type:lex_filenum:lex_id:head_word:head_id
更多信息在 WordNet documentation。