文本挖掘 - 具有大量拼写问题和差异的功能
Text mining - feature with a lot of spelling probs and differentations
我想了解这个功能 "color"。问题是它有超过 15.000 种规格,其中有很多拼写问题(例如 brwon <-> brown,oliv <-> olive),但也有差异(lightblue <-> blue)。
如何理解这样的功能?是否有任何资源、R 包或 python 模块?
R可以使用aspell(命令可用)。但是你需要在你的机器上安装 aspell 甚至 hunspell。例如,Hunspell 在 chrome / firefox 和 Rstudio 中用作拼写检查。
阅读此 journal 了解有关 R 中的 aspell 和 hunspell 的更多信息。
但这只会解决拼写错误。您可以使用正则表达式来查找主要颜色。
我想了解这个功能 "color"。问题是它有超过 15.000 种规格,其中有很多拼写问题(例如 brwon <-> brown,oliv <-> olive),但也有差异(lightblue <-> blue)。
如何理解这样的功能?是否有任何资源、R 包或 python 模块?
R可以使用aspell(命令可用)。但是你需要在你的机器上安装 aspell 甚至 hunspell。例如,Hunspell 在 chrome / firefox 和 Rstudio 中用作拼写检查。
阅读此 journal 了解有关 R 中的 aspell 和 hunspell 的更多信息。
但这只会解决拼写错误。您可以使用正则表达式来查找主要颜色。