如何使用 python 标记连续对中的字符串?

How to tokenize a string in consecutive pairs using python?

我的输入是“我喜欢打篮球”。 我正在寻找的输出是“我喜欢”、“喜欢”、“玩”、“打篮球”。 我使用了 Nltk word tokenize 但它只给出了单个标记。 我在一个巨大的数据库中有这些类型的语句,这种成对标记化将在整个列上 运行。

您可以为此使用列表理解:

>>> a =  "I like to play basketball"
>>> b = a.split()
>>> c = [" ".join([b[i],b[i+1]]) for i in range(len(b)-1)]
>>> c
['I like', 'like to', 'to play', 'play basketball']

你可以这样做:

s = 'I like to play basketball'
t = s.split()
for i in range(len(t)-1):
    print(' '.join(t[i:i+2]))