使用 python 对整个文本文件进行高效自动更正？

Efficient autocorrect on entire text files with python?

我目前正在预处理大约 100000 个句子。为了改进我们的 ML 预测，我们可能应该运行对数据进行某种 autocorrect/spellchecking。然而，到目前为止，我发现 python 中的大多数实现都很慢。在 python 中是否有一种有效且简单的方法来自动更正整个文本文件？

我尝试在 https://github.com/phatpiglet/autocorrect/ 中使用它，但它需要相对较长的时间（我没有很好地实现它，但我想有人已经在某处完成了）

如@Vishnudev 所述，更喜欢使用 SymSpellCompound

根据基准测试，它比其他拼写更正实施方案快几个数量级。请参考这个graph

如果您阅读自动更正背后的代码，它会提到它基于可用的 Peter Norvig 实现 here

也尝试了基准测试 spacy_hunspell 但无法将性能计时提高超过 +15-2O%

其他改进轨迹：

祝你工作顺利！