使用 python 对整个文本文件进行高效自动更正?

Efficient autocorrect on entire text files with python?

我目前正在预处理大约 100000 个句子。 为了改进我们的 ML 预测,我们可能应该 运行 对数据进行某种 autocorrect/spellchecking。然而,到目前为止,我发现 python 中的大多数实现都很慢。在 python 中是否有一种有效且简单的方法来自动更正整个文本文件?

我尝试在 https://github.com/phatpiglet/autocorrect/ 中使用它,但它需要相对较长的时间(我没有很好地实现它,但我想有人已经在某处完成了)

如@Vishnudev 所述,更喜欢使用 SymSpellCompound

根据基准测试,它比其他拼写更正实施方案快几个数量级。 请参考这个graph

如果您阅读自动更正背后的代码,它会提到它基于可用的 Peter Norvig 实现 here

也尝试了基准测试 spacy_hunspell 但无法将性能计时提高超过 +15-2O%

其他改进轨迹:

  • 利用python多处理模块。
  • 如果您正在使用 pandas,请考虑使用 Dask 框架进行并行处理。

祝你工作顺利!