非英语单词的 n-gram 生成
n-gram generation for words of non english languages
我正在为捷克语单词执行二元组生成。我能够使用 Python 生成二元语法。问题出在捷克语中的非英语字符。
输入:
共和党战略支持奥巴马.
执行二元组,输出为
[['republik\xc3\xa1n', 'strategii'], ['strategii', 'proti'], ['proti', 'znovuzvolen\xc3\xad'], ['znovuzvolen\xc3\xad', 'Obamy']]
捷克语的特殊字母转换为\xc3\xad二元字母。
需要对代码进行哪些更改才能在输出中以正确的方式获取特殊字母
数据是正确的,但是当您将列表转换为字符串时,输出是使用 repr
作为列表项准备的,而不是 str
。比较:
>>> x = [['republikán']]
>>> print(x)
[['republik\xc3\xa1n']]
>>> print(x[0])
['republik\xc3\xa1n']
>>> print(x[0][0])
republikán
>>>
我正在为捷克语单词执行二元组生成。我能够使用 Python 生成二元语法。问题出在捷克语中的非英语字符。
输入:
共和党战略支持奥巴马.
执行二元组,输出为
[['republik\xc3\xa1n', 'strategii'], ['strategii', 'proti'], ['proti', 'znovuzvolen\xc3\xad'], ['znovuzvolen\xc3\xad', 'Obamy']]
捷克语的特殊字母转换为\xc3\xad二元字母。 需要对代码进行哪些更改才能在输出中以正确的方式获取特殊字母
数据是正确的,但是当您将列表转换为字符串时,输出是使用 repr
作为列表项准备的,而不是 str
。比较:
>>> x = [['republikán']]
>>> print(x)
[['republik\xc3\xa1n']]
>>> print(x[0])
['republik\xc3\xa1n']
>>> print(x[0][0])
republikán
>>>