提取 3 个连续字符和单词的 n-gram

Question

下面的函数（我在 Chris van den Berg 的 this 博客 post 中找到）提取 3 个连续字符的所有 n-gram一个字符串：

import re

def ngrams(string, n = 3):
    string = re.sub(r'[,-./]|\sBD', r'', string)
    ngrams = zip(*[string[i:] for i in range(n)])
    return [''.join(ngram) for ngram in ngrams]

例如，将字符串 Stack Overflow 传递给上面定义的函数将 return 以下列表：

print(ngrams('Stack Overflow', n = 3))

['Sta', 'tac', 'ack', 'ck ', 'k O', ' Ov', 'Ove', 'ver', 'erf', 'rfl', 'flo', 'low']

我的目标是修改此函数，使其包含 3 个连续字符和单词的 n-gram。也就是说，对于上面显示的相同示例，我希望输出如下：

['Stack', 'Overflow', 'Sta', 'tac', 'ack', 'ck ', 'k O', ' Ov', 'Ove', 'ver', 'erf', 'rfl', 'flo', 'low']

Answer 1

你可以这样做：

import re

def ngrams(string, n = 3):
    string = re.sub(r'[,-./]|\sBD', r'', string)
    ngrams = zip(*[string[i:] for i in range(n)])
    return string.split(' ') + [''.join(ngram) for ngram in ngrams]

print(ngrams('Stack Overflow', n = 3))

这给你：

['Stack', 'Overflow', 'Sta', 'tac', 'ack', 'ck ', 'k O', ' Ov', 'Ove', 'ver', 'erf', 'rfl', 'flo', 'low']

提取 3 个连续字符和单词的 n-gram

Extracting n-grams of 3 contiguous characters and words

python

nlp

n-gram