可以平衡 unidic 与 unidic-neologd 吗?
Possible to balance unidic vs. unidic-neologd?
使用 mecab
和 -d mecab-unidic-neologd
语句“这个地方有点混乱,但它是个不错的地方。”(即 "It is a bit hard to find, but it is a nice place.")第一行输出是:
場所 バショ バショ 場所 名詞-固有名詞-人名-姓
也就是说,“地方”是一个人的姓氏。使用普通的 mecab-unidic 更准确地说,“地方”只是一个简单的名词。
場所 バショ バショ 場所 名詞-普通名詞-一般
我的第一个问题是 unidic-neologd 是替换了 unidic 中的所有条目,还是只是简单地附加了它的 300 万个专有名词?
然后,其次,假设它是合并,是否可以重新加权条目,更强烈地更喜欢普通的单一条目?和 SMAP 每个都被识别为单个专有名词,但我也需要它来看到那个地方总是意味着"place"(当然,除了在它后面跟着一个名字后缀,比如さん或様)。
参考文献:unidic-neologd
Neologd 与 unidic(或 ipadic)合并,这就是它在名称中保留 "unidic" 的原因。如果条目具有多个词性,例如场所,则通过使用词性转换最小化整个句子的成本来选择使用哪个条目,对于字典中的单词,每个标记的成本。
如果您查看包含 neologd 字典条目的 CSV 文件,您会看到两个条目:
場所,4786,4786,4329,名詞,固有名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*
場所,4790,4790,4329,名詞,固有名詞,人名,姓,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*
而在lex.csv
中,默认的unidic字典:
場所,5145,5145,4193,名詞,普通名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,混,*,*,*,*
第四栏是费用。成本较低的项目更有可能被选中,因此在这种情况下,您可以提高场所作为专有名词的成本,但老实说我会删除它。您可以阅读更多关于 fiddling with cost here(日语)的内容。
如果你想对所有默认的unidic条目进行更强的加权,你可以修改neolog CSV文件来增加所有的权重。这是创建这样的文件的一种方法:
awk -F, 'BEGIN{OFS=FS}{ = * 100; print [=12=]}' neolog.csv > neolog.fix.csv
您必须在构建之前删除原始 csv 文件(请参阅下面的注释 2)。
在这种特殊情况下,我认为您应该将此作为错误报告给 Neologd 项目。
注1:如前所述,由于选择哪个条目取决于整个句子,因此即使使用默认配置也有可能获得非专有名词标签。例句:
お店の場所知っている?
注意 2:neologd 字典与默认 unidic 字典结合的方式是基于 Mecab 字典构建工作方式的一个微妙方面。具体来说,创建系统词典时会使用词典构建目录中的 all 个 CSV 文件。未指定顺序,因此不清楚发生碰撞时会发生什么。
Mecab 文档 here(日语)中提到了此功能。
使用 mecab
和 -d mecab-unidic-neologd
语句“这个地方有点混乱,但它是个不错的地方。”(即 "It is a bit hard to find, but it is a nice place.")第一行输出是:
場所 バショ バショ 場所 名詞-固有名詞-人名-姓
也就是说,“地方”是一个人的姓氏。使用普通的 mecab-unidic 更准确地说,“地方”只是一个简单的名词。
場所 バショ バショ 場所 名詞-普通名詞-一般
我的第一个问题是 unidic-neologd 是替换了 unidic 中的所有条目,还是只是简单地附加了它的 300 万个专有名词?
然后,其次,假设它是合并,是否可以重新加权条目,更强烈地更喜欢普通的单一条目?和 SMAP 每个都被识别为单个专有名词,但我也需要它来看到那个地方总是意味着"place"(当然,除了在它后面跟着一个名字后缀,比如さん或様)。
参考文献:unidic-neologd
Neologd 与 unidic(或 ipadic)合并,这就是它在名称中保留 "unidic" 的原因。如果条目具有多个词性,例如场所,则通过使用词性转换最小化整个句子的成本来选择使用哪个条目,对于字典中的单词,每个标记的成本。
如果您查看包含 neologd 字典条目的 CSV 文件,您会看到两个条目:
場所,4786,4786,4329,名詞,固有名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*
場所,4790,4790,4329,名詞,固有名詞,人名,姓,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*
而在lex.csv
中,默认的unidic字典:
場所,5145,5145,4193,名詞,普通名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,混,*,*,*,*
第四栏是费用。成本较低的项目更有可能被选中,因此在这种情况下,您可以提高场所作为专有名词的成本,但老实说我会删除它。您可以阅读更多关于 fiddling with cost here(日语)的内容。
如果你想对所有默认的unidic条目进行更强的加权,你可以修改neolog CSV文件来增加所有的权重。这是创建这样的文件的一种方法:
awk -F, 'BEGIN{OFS=FS}{ = * 100; print [=12=]}' neolog.csv > neolog.fix.csv
您必须在构建之前删除原始 csv 文件(请参阅下面的注释 2)。
在这种特殊情况下,我认为您应该将此作为错误报告给 Neologd 项目。
注1:如前所述,由于选择哪个条目取决于整个句子,因此即使使用默认配置也有可能获得非专有名词标签。例句:
お店の場所知っている?
注意 2:neologd 字典与默认 unidic 字典结合的方式是基于 Mecab 字典构建工作方式的一个微妙方面。具体来说,创建系统词典时会使用词典构建目录中的 all 个 CSV 文件。未指定顺序,因此不清楚发生碰撞时会发生什么。
Mecab 文档 here(日语)中提到了此功能。