MeCab 未正确解析

Question

我下载了 MeCab 来解析一些日语文本。为了对其进行测试，我尝试按照一些在线示例进行操作。

例如，我逐字遵循了这个人的提示：http://www.robfahey.co.uk/blog/japanese-text-analysis-in-python/

代码如下：

import MeCab

test = "今日はいい天気ですね。遊びに行かない？新宿で祭りがある！"
mt = MeCab.Tagger("-Ochasen -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd")
parsed = mt.parseToNode(test)

components = []
while parsed:
    components.append(parsed.surface)
    parsed = parsed.next

print(components)

我期望的输出是：

['', '今日', 'は', 'いい', '天気', 'です', 'ね', '。', '遊び', 'に', '行か', 'ない', '？', '新宿', 'で', '祭り', 'が', 'ある', '！', '']

但是，我得到了这个：

['今日はいい天気ですね。遊びに行かない？新宿で祭りがある！', '今日はいい天気ですね。遊びに行かない？新宿で祭りがある！', 'はいい天気ですね。遊びに行かない？新宿で祭りがある！', 'いい天気ですね。遊びに行かない？新宿で祭りがある！', '天気ですね。遊びに行かない？新宿で祭りがある！', 'ですね。遊びに行かない？新宿で祭りがある！', 'ね。遊びに行かない？新宿で祭りがある！', '。遊びに行かない？新宿で祭りがある！', '遊びに行かない？新宿で祭りがある！', 'に行かない？新宿で祭りがある！', '行かない？新宿で祭りがある！', 'ない？新宿で祭りがある！', '？新宿で祭りがある！', '新宿で祭りがある！', 'で祭りがある！', '祭りがある！', 'がある！', 'ある！', '！', '']

对于熟悉 MeCab 或一般解析节点的任何人，我到底做错了什么？再次感谢您的帮助！

Answer 1

你没有做错任何事情，11 月发布的最新版本 mecab-python3 中有一个 bug。

该错误应该会尽快修复，但目前请使用 0.7 版。

MeCab 未正确解析

MeCab Not Parsing Correctly

nlp

tokenize

python-3.x

mecab

data-science