如何在 Python 中找到重复的字符串段？

Question

所以我有一些中等长度的字符串 - 介于几个单词和几个句子之间。有时，文本中的一个子串会连续重复两次。我需要编写自动代码来识别重复的部分。或者至少以高概率标记它。

我知道的：

重复的子串是一系列的几个完整的单词（和标点符号）。单词中间不会出现重复。
重复的长度是可变的。它可以是几个词到几个句子本身。但它总是至少有几个字那么长。如果可能，我想避免标记单个单词重复。
当发生重复时，它总是恰好重复一次，并且紧接在上一次出现之后。就在上次出现之后。 (<- 例子)
我需要运行对大约一百万个不同的字符串进行此检查，因此代码至少必须具有一定的效率（不是蛮力检查每个选项的方法）。

我已经为此苦苦挣扎了一段时间。非常感谢您的帮助。

Answer 1

因为一个词的重复是multiple-word[=52=的子类 ] 重复，匹配单个单词或 word-like 序列已经很有帮助了。这是我在 editor with regex search:

中尝试解决您的问题的正则表达式
(\<\w.{3,16}\w\>).{2,}

这是发现的第一个重复

The repeat is of a variable length. It can be a few words to a few sentences itself. But it's always at least a few words long. I would like to avoid flagging single word repetitions if possible.

但它接下来会在 repeating 中找到 repeat。所以我们必须调整限制。

部分(\<\w.{3,16}\w\>)表示

从单词开始（包括一个字符）

3到16个任意字符

单词结束前（包括一个字符）

换句话说，一个或多个总字符数为 5 到 18 的单词。

部分.{2,}表示

至少两个字符

无上限

捕获的比赛

在这里，下限可以更高。应该尝试使用上限，尤其是在较长的文本上。

我认为首先要找到重复的短字符序列，然后通过寻找在第一步结果中重复的较长序列（加上末尾的其他字符）来改进。

也是预处理的问题。我猜想如果换行符（而不是 space 发生在不同的地方），应该错过重复的 multiple-word 序列。

要进一步自动化，您可以切换到 Python's re module。

如何在 Python 中找到重复的字符串段？

How can I find repeated string segments in Python?

python

string

nlp