非英语单词的 n-gram 生成

n-gram generation for words of non english languages

我正在为捷克语单词执行二元组生成。我能够使用 Python 生成二元语法。问题出在捷克语中的非英语字符。

输入:

共和党战略支持奥巴马.

执行二元组,输出为

[['republik\xc3\xa1n', 'strategii'], ['strategii', 'proti'], ['proti', 'znovuzvolen\xc3\xad'], ['znovuzvolen\xc3\xad', 'Obamy']]

捷克语的特殊字母转换为\xc3\xad二元字母。 需要对代码进行哪些更改才能在输出中以正确的方式获取特殊字母

数据是正确的,但是当您将列表转换为字符串时,输出是使用 repr 作为列表项准备的,而不是 str。比较:

>>> x = [['republikán']]
>>> print(x)
[['republik\xc3\xa1n']]
>>> print(x[0])
['republik\xc3\xa1n']
>>> print(x[0][0])
republikán
>>>