文本挖掘 - 具有大量拼写问题和差异的功能

Text mining - feature with a lot of spelling probs and differentations

我想了解这个功能 "color"。问题是它有超过 15.000 种规格，其中有很多拼写问题（例如 brwon <-> brown，oliv <-> olive），但也有差异（lightblue <-> blue）。

如何理解这样的功能？是否有任何资源、R 包或 python 模块？

R可以使用aspell（命令可用）。但是你需要在你的机器上安装 aspell 甚至 hunspell。例如，Hunspell 在 chrome / firefox 和 Rstudio 中用作拼写检查。

阅读此 journal 了解有关 R 中的 aspell 和 hunspell 的更多信息。

但这只会解决拼写错误。您可以使用正则表达式来查找主要颜色。