从推文中提取特征

Features extraction from tweets

我正在使用 Python 语言并且我从 Twitter 上收到推文。现在我要做的下一件事是从推文中提取特征,例如: 1.特征A(统计特征):推文消息中的词数,以及查询词在推文中的位置。 2.特征B(关键词特征):推文中的词。 3.特征C(词上下文特征):查询词前后的词。 例如: 特征 A:tweet 中的 7 个词,查询词排在第五位 特征 B:我,现在,在,日本,对,现在 特写C:日本,右

建议我一些提取这些特征的好方法。因为我没有找到提取特征的正确方法

您应该查看以下库:

  1. NLTK
  2. SKLearn

根据您需要完成的工作,将这两者结合起来会让您走得更远。

另外,对于自然语言处理的介绍,我推荐this book(免费在线阅读)。