获取数据框中拼写错误单词的字典
Get a dictionary of incorrect spelling words in a dataframe
正在处理情绪分析问题。尝试使用 autocorrect
但这需要大量的计算能力,由于语料库的大小我无法访问。因此想出了一个不同的方法来解决这个问题,即创建一个 {key = 'incorrect', value = 'correct'}
的字典,然后手动更正所有单词。
问题是我应该如何在字典中找到那个拼错单词的字典。 this link 是否与我的问题的解决方案相同?(我应该查找 OOV 单词而不是拼写错误的单词?)
如果不行,请推荐一些更好的方法。
用于 autocorrect
的代码:
!pip install autocorrect
from autocorrect import spell
train['text'] = [' '.join([spell(i) for i in x.split()]) for x in train['text']]
你能正确拼写一个单词多少次?只有 1 次。
现在,一个单词你能拼错多少次?我应该说无限。
这回答了您的问题:
Rather than misspelled words should I look for OOV words?
- 当然可以,特别是如果您的拼写错误不是新词或经常重复的常用拼写错误。
现在,如果拼写错误,你怎么能得到这些特征呢?一种方法是使用 "Levenstein Distance"(或最小编辑距离),它将拼写错误的单词与您的词典进行比较,检查它与您的任何单词的距离是否很小。这可能是自动更正包背后的原因。您可以在 link.
中查看有关它的更多信息
因此,简而言之,您可能不得不丢弃 OOV 词或在其上使用一些计算资源,因为计算机无法 "guess" 如果不对其进行一些计算。
正在处理情绪分析问题。尝试使用 autocorrect
但这需要大量的计算能力,由于语料库的大小我无法访问。因此想出了一个不同的方法来解决这个问题,即创建一个 {key = 'incorrect', value = 'correct'}
的字典,然后手动更正所有单词。
问题是我应该如何在字典中找到那个拼错单词的字典。 this link 是否与我的问题的解决方案相同?(我应该查找 OOV 单词而不是拼写错误的单词?)
如果不行,请推荐一些更好的方法。
用于 autocorrect
的代码:
!pip install autocorrect
from autocorrect import spell
train['text'] = [' '.join([spell(i) for i in x.split()]) for x in train['text']]
你能正确拼写一个单词多少次?只有 1 次。
现在,一个单词你能拼错多少次?我应该说无限。
这回答了您的问题:
Rather than misspelled words should I look for OOV words?
- 当然可以,特别是如果您的拼写错误不是新词或经常重复的常用拼写错误。
现在,如果拼写错误,你怎么能得到这些特征呢?一种方法是使用 "Levenstein Distance"(或最小编辑距离),它将拼写错误的单词与您的词典进行比较,检查它与您的任何单词的距离是否很小。这可能是自动更正包背后的原因。您可以在 link.
中查看有关它的更多信息因此,简而言之,您可能不得不丢弃 OOV 词或在其上使用一些计算资源,因为计算机无法 "guess" 如果不对其进行一些计算。