识别多个电子邮件文档中的重复段落(样板)

Identify duplicated paragraphs (boilerplate) within several email documents

我已经开始使用 R 和 Python 学习文本挖掘和自然语言处理。最近,我正在尝试执行一些基本任务,例如:(1) 一组文档(电子邮件文档)中使用最频繁的术语和 (2) 聚类。 "problem" 带有一些重复的段落,例如免责声明、电子邮件签名等;因为他们在我的结果中添加了一些噪音……有没有办法识别文档集中的样板或重复段落?为了在预处理任务期间删除它们。

衡量文档的相似性是一个巨大的课题,也是一个活跃的研究领域。识别 样板 的方法有很多种,其中 none 是完美的。

但请查看 wydyr 包函数。将文档分成段落大小的部分(或更小的部分)。使用 pairwise_countpairwise_cor 来获得之间的相似性度量,例如文档的开头和结尾部分。

此外,获取 Silge 和 Robinson 撰写的 Text Mining with R 的副本;注意第四章