获取数据框中拼写错误单词的字典

Get a dictionary of incorrect spelling words in a dataframe

正在处理情绪分析问题。尝试使用 autocorrect 但这需要大量的计算能力,由于语料库的大小我无法访问。因此想出了一个不同的方法来解决这个问题,即创建一个 {key = 'incorrect', value = 'correct'} 的字典,然后手动更正所有单词。

问题是我应该如何在字典中找到那个拼错单词的字典。 this link 是否与我的问题的解决方案相同?(我应该查找 OOV 单词而不是拼写错误的单词?)

如果不行,请推荐一些更好的方法。

用于 autocorrect 的代码:

!pip install autocorrect
from autocorrect import spell 
train['text'] = [' '.join([spell(i) for i in x.split()]) for x in train['text']]

你能正确拼写一个单词多少次?只有 1 次。

现在,一个单词你能拼错多少次?我应该说无限。

这回答了您的问题:

Rather than misspelled words should I look for OOV words?

  • 当然可以,特别是如果您的拼写错误不是新词或经常重复的常用拼写错误。

现在,如果拼写错误,你怎么能得到这些特征呢?一种方法是使用 "Levenstein Distance"(或最小编辑距离),它将拼写错误的单词与您的词典进行比较,检查它与您的任何单词的距离是否很小。这可能是自动更正包背后的原因。您可以在 link.

中查看有关它的更多信息

因此,简而言之,您可能不得不丢弃 OOV 词或在其上使用一些计算资源,因为计算机无法 "guess" 如果不对其进行一些计算。