用 nltk 发短信的语料库?
corpus to text with nltk?
你好我用NLTK下载了一个语料库
phrase = nltk.corpus.conll2002.iob_sents('esp.testb')[0]
那个return:
[('La', 'DA', 'B-LOC'), ('Coruña', 'NC', 'I-LOC'), (',', 'Fc', 'O'),
('23', 'Z', 'O'), ('may', 'NC', 'O'), ('(', 'Fpa', 'O'), ('EFECOM',
'NP', 'B-ORG'),
问题是关于如何得到完整的句子我正在使用下面的代码:
' '.join([w[0] for w in phrase])
phrase = ' '.join([w[0] for w in phrase])
但我明白了
'La Coruña , 23 may ( EFECOM ) .'
而不是
'La Coruña, 23 may (EFECOM).'
如何获取第二句?
谢谢
CoNLL语料库通常不包含空格信息,因此不可能完美重构原句
您可以使用试探法在逗号或右括号或其他一些字符之前不放置空格,但通常用空格分隔所有内容更容易。
你好我用NLTK下载了一个语料库
phrase = nltk.corpus.conll2002.iob_sents('esp.testb')[0]
那个return:
[('La', 'DA', 'B-LOC'), ('Coruña', 'NC', 'I-LOC'), (',', 'Fc', 'O'), ('23', 'Z', 'O'), ('may', 'NC', 'O'), ('(', 'Fpa', 'O'), ('EFECOM', 'NP', 'B-ORG'),
问题是关于如何得到完整的句子我正在使用下面的代码:
' '.join([w[0] for w in phrase])
phrase = ' '.join([w[0] for w in phrase])
但我明白了
'La Coruña , 23 may ( EFECOM ) .'
而不是
'La Coruña, 23 may (EFECOM).'
如何获取第二句?
谢谢
CoNLL语料库通常不包含空格信息,因此不可能完美重构原句
您可以使用试探法在逗号或右括号或其他一些字符之前不放置空格,但通常用空格分隔所有内容更容易。