使用社交生成的内容训练 fasttext 模型

training fasttext models with social generated content

我目前正在学习使用 Facebook FastText 进行文本分类。我从 Kaggle 中发现了一些数据,其中包含 � 或推特用户名和主题标签等字符。我试着在网上搜索,但是没有说明在训练模型之前你真正需要如何 clean/pre-process 你的文本。

在一些博客中,我看到作者撰写了有关标记化的文章,但在 fasttext 中并未提及。另一点是 fasttext git 有干净数据的示例,例如 Whosebug,但没有用于 twitter 或此类平台的示例。

问题是,在训练模型之前预处理用户(社交)生成的内容的最佳做法是什么?需要编辑什么?

谢谢

由于 FastText-Classifier 不适用于预训练嵌入,您几乎可以选择自己的方式来清理数据。我会建议你:

  • 将所有内容转换为小写(如果需要,也可以转换为大写,这无关紧要)。

  • 我会删除 # 和 @ 旁边的特殊字符。

    其他一切由您决定。您可以决定保留或删除主题标签,用户名也是如此。我可能会删除用户名,因为我猜其中没有太多信息。但在某些情况下,它可能会提供信息:想想关于唐纳德特朗普的推文和答案,我猜他的用户名经常被使用。只需尝试最适合您的情况。 FastText 超级快,所以几次实验不会有太大问题。