WOLF(Wordnet Libre du Français,自由法语 Wordnet)规范
WOLF (Wordnet Libre du Français, Free French Wordnet) specifications
我正在尝试为 WOLF(Wordnet Libre du Français,Free French Wordnet)创建一个界面。目标是为阿拉伯语 Wordnet (http://www.talp.upc.edu/index.php/technology/resources/multilingual-lexicons-and-machine-translation-resources/multilingual-lexicons/72-awn) 复制 AWNDatabaseManger,但为 WOLF。
我面临的问题是找不到合适的 WOLF 数据规范 (http://alpage.inria.fr/~sagot/wolf-en.html) or WoNeF (which is another French tranlated Wordnet http://wonef.fr/)
对于阿拉伯语 Wordnet,他们提供了详细的数据规范,可以在 http://globalwordnet.org/arabic-wordnet/awn-data-spec/ 找到
我正在尝试为 WOLF 或 WoNeF 找到相同的内容。
否则我如何映射这两个文件?
例如一个词和它在awn中的关系是这样的:
<item itemid="$ajarap_AlS~amog_n1AR" offset="111586059" lexfile="" name="شَجَرَة الصَّمْغ " type="synset" headword="" POS="n" source="" gloss="" authorshipid="80" />
<word wordid="$ajarap__1" value="شَجَرَة الصَّمْغ " synsetid="$ajarap_AlS~amog_n1AR" frequency="" corpus="" authorshipid="11461" />
<link type="has_hyponym" link1="$ajarap_AlS~amog_n1AR" link2=">ukAlibotws_n1AR" authorshipid="35038" />
<link type="has_hyponym" link1="$ajarap_n1AR" link2="$ajarap_AlS~amog_n1AR" authorshipid="35041" />
单词定义(项目)及其关系(link)用不同的属性分隔。
而在 WOLF 中,单词和它的关系如下所示:
<SYNSET>
<ILR type="near_antonym">eng-30-00002098-a</ILR>
<ILR type="be_in_state">eng-30-05200169-n</ILR>
<ILR type="be_in_state">eng-30-05616246-n</ILR>
<ILR type="eng_derivative">eng-30-05200169-n</ILR>
<ILR type="eng_derivative">eng-30-05616246-n</ILR>
<ID>eng-30-00001740-a</ID>
<SYNONYM>
<LITERAL lnote="2/2:fr.csbgen,fr.csen">comptable</LITERAL>
</SYNONYM>
<DEF>(usually followed by `to') having the necessary means or skill or know-how or authority to do something
</DEF>
<USAGE>able to swim</USAGE>
<USAGE>she was able to program her computer</USAGE>
<USAGE>we were at last able to buy a car</USAGE>
<USAGE>able to get a grant for the project</USAGE>
<BCS>3</BCS>
<POS>a</POS>
</SYNSET>
我可以假设 awn 属性 gloss 等于 wolf 标签用法,awn 属性 pos 等于 wolf 标签 pos。
但关键是我不想做出假设,我正在寻找合适的文档,从中我可以确定并得出两个文件之间的映射。
谁能告诉我正确的文档?
WOLF 数据库的格式基于此处定义的 VisDic:
https://nlp.fi.muni.cz/trac/deb2/wiki/WordNetFormat
XSD 可在此处获得:http://deb.fi.muni.cz/debvisdic.xsd
根据您的需要,解决方法是使用 NLTK Python 库,它集成了一些可能来自 WOLF
的法语同义词集
>>> from nltk.corpus import wordnet as wn
>>> [synset.lemma_names('fra') for synset in wn.synsets(u'chien'.decode('utf-8'), lang='fra')]
[[u'canis_familiaris', u'chien'], [u'aboyeur', u'chien', u'chienchien', u'clébard', u'toutou'], [u'chien', u'chien_de_chasse'], [u'chien'], [u'chien', u'clic', u'cliquer', u'cliquet'], [u'chien', u'franc', u'hot-dog'], [u'achille', u'chien', u'quignon', u'talon'], [u'chien'], [u'chien']]
我正在尝试为 WOLF(Wordnet Libre du Français,Free French Wordnet)创建一个界面。目标是为阿拉伯语 Wordnet (http://www.talp.upc.edu/index.php/technology/resources/multilingual-lexicons-and-machine-translation-resources/multilingual-lexicons/72-awn) 复制 AWNDatabaseManger,但为 WOLF。
我面临的问题是找不到合适的 WOLF 数据规范 (http://alpage.inria.fr/~sagot/wolf-en.html) or WoNeF (which is another French tranlated Wordnet http://wonef.fr/)
对于阿拉伯语 Wordnet,他们提供了详细的数据规范,可以在 http://globalwordnet.org/arabic-wordnet/awn-data-spec/ 找到 我正在尝试为 WOLF 或 WoNeF 找到相同的内容。
否则我如何映射这两个文件?
例如一个词和它在awn中的关系是这样的:
<item itemid="$ajarap_AlS~amog_n1AR" offset="111586059" lexfile="" name="شَجَرَة الصَّمْغ " type="synset" headword="" POS="n" source="" gloss="" authorshipid="80" />
<word wordid="$ajarap__1" value="شَجَرَة الصَّمْغ " synsetid="$ajarap_AlS~amog_n1AR" frequency="" corpus="" authorshipid="11461" />
<link type="has_hyponym" link1="$ajarap_AlS~amog_n1AR" link2=">ukAlibotws_n1AR" authorshipid="35038" />
<link type="has_hyponym" link1="$ajarap_n1AR" link2="$ajarap_AlS~amog_n1AR" authorshipid="35041" />
单词定义(项目)及其关系(link)用不同的属性分隔。
而在 WOLF 中,单词和它的关系如下所示:
<SYNSET>
<ILR type="near_antonym">eng-30-00002098-a</ILR>
<ILR type="be_in_state">eng-30-05200169-n</ILR>
<ILR type="be_in_state">eng-30-05616246-n</ILR>
<ILR type="eng_derivative">eng-30-05200169-n</ILR>
<ILR type="eng_derivative">eng-30-05616246-n</ILR>
<ID>eng-30-00001740-a</ID>
<SYNONYM>
<LITERAL lnote="2/2:fr.csbgen,fr.csen">comptable</LITERAL>
</SYNONYM>
<DEF>(usually followed by `to') having the necessary means or skill or know-how or authority to do something
</DEF>
<USAGE>able to swim</USAGE>
<USAGE>she was able to program her computer</USAGE>
<USAGE>we were at last able to buy a car</USAGE>
<USAGE>able to get a grant for the project</USAGE>
<BCS>3</BCS>
<POS>a</POS>
</SYNSET>
我可以假设 awn 属性 gloss 等于 wolf 标签用法,awn 属性 pos 等于 wolf 标签 pos。
但关键是我不想做出假设,我正在寻找合适的文档,从中我可以确定并得出两个文件之间的映射。
谁能告诉我正确的文档?
WOLF 数据库的格式基于此处定义的 VisDic: https://nlp.fi.muni.cz/trac/deb2/wiki/WordNetFormat XSD 可在此处获得:http://deb.fi.muni.cz/debvisdic.xsd
根据您的需要,解决方法是使用 NLTK Python 库,它集成了一些可能来自 WOLF
的法语同义词集>>> from nltk.corpus import wordnet as wn
>>> [synset.lemma_names('fra') for synset in wn.synsets(u'chien'.decode('utf-8'), lang='fra')]
[[u'canis_familiaris', u'chien'], [u'aboyeur', u'chien', u'chienchien', u'clébard', u'toutou'], [u'chien', u'chien_de_chasse'], [u'chien'], [u'chien', u'clic', u'cliquer', u'cliquet'], [u'chien', u'franc', u'hot-dog'], [u'achille', u'chien', u'quignon', u'talon'], [u'chien'], [u'chien']]