如何处理 luv 、 kool 和 brb 等推文中的俚语和简称?
How to handle slang words and short forms in Tweets like luv , kool and brb?
我正在使用 Python 对推文进行预处理。但是,使用的很多词都是其他词的缩写形式,如 luv、kool 等。还有缩写,如 brb 、 ttyl 等
现在,我只能想到有一个巨大的 Hashmap,其中单词作为键,实际单词或扩展作为值。有没有其他更好的方法来使用 NLP 来解决这个问题?
注意:我知道问题似乎太模糊了。但请不要举报。我问这个是为了业余爱好者可以从这些知识中受益
PS : 是否有格式良好的文本列表可供我下载和使用?放下的链接很好,但是当我复制并粘贴它时 - 它们不是易于解析的格式
破译缩写的唯一方法是使用外部资源。这就是为什么有许多人类缩写词词典的原因。虽然,人类可以利用常识知识和已知的缩写来预测意义,但即使他们做得很糟糕,所以 NLP 现在没有希望了。
有时也可以在同一文本中找到缩写词的定义,但推特或(不是和)俚语就不是这样了。
所以,是的,您必须存储从首字母缩略词到它们的扩展名的映射。为了获得它们,搜索首字母缩略词词典,例如this slang dictionary, or that, or that, or that - seems to be the easiest for parsing.
至于其他俚语如'kool',您可以尝试拼写校正算法,参见related question。
我正在使用 Python 对推文进行预处理。但是,使用的很多词都是其他词的缩写形式,如 luv、kool 等。还有缩写,如 brb 、 ttyl 等
现在,我只能想到有一个巨大的 Hashmap,其中单词作为键,实际单词或扩展作为值。有没有其他更好的方法来使用 NLP 来解决这个问题?
注意:我知道问题似乎太模糊了。但请不要举报。我问这个是为了业余爱好者可以从这些知识中受益
PS : 是否有格式良好的文本列表可供我下载和使用?放下的链接很好,但是当我复制并粘贴它时 - 它们不是易于解析的格式
破译缩写的唯一方法是使用外部资源。这就是为什么有许多人类缩写词词典的原因。虽然,人类可以利用常识知识和已知的缩写来预测意义,但即使他们做得很糟糕,所以 NLP 现在没有希望了。
有时也可以在同一文本中找到缩写词的定义,但推特或(不是和)俚语就不是这样了。
所以,是的,您必须存储从首字母缩略词到它们的扩展名的映射。为了获得它们,搜索首字母缩略词词典,例如this slang dictionary, or that, or that, or that - seems to be the easiest for parsing.
至于其他俚语如'kool',您可以尝试拼写校正算法,参见related question。