用 nltk 发短信的语料库?

corpus to text with nltk?

你好我用NLTK下载了一个语料库

phrase = nltk.corpus.conll2002.iob_sents('esp.testb')[0]

那个return:

[('La', 'DA', 'B-LOC'), ('Coruña', 'NC', 'I-LOC'), (',', 'Fc', 'O'), ('23', 'Z', 'O'), ('may', 'NC', 'O'), ('(', 'Fpa', 'O'), ('EFECOM', 'NP', 'B-ORG'),

问题是关于如何得到完整的句子我正在使用下面的代码:

' '.join([w[0] for w in phrase])
phrase = ' '.join([w[0] for w in phrase])

但我明白了

'La Coruña , 23 may ( EFECOM ) .'

而不是

'La Coruña, 23 may (EFECOM).'

如何获取第二句?

谢谢

CoNLL语料库通常不包含空格信息,因此不可能完美重构原句

您可以使用试探法在逗号或右括号或其他一些字符之前不放置空格,但通常用空格分隔所有内容更容易。