我应该使用哪种聊天文本数据表示法来进行用户分类?

What representation of chat text data should I use for user classification?

我正在尝试训练一个分类器来对 2 个用户之间的聊天文本进行分类,以便稍后我可以预测这两个用户中谁更有可能说 X sentence/word。为了到达那里,我从聊天记录中挖掘文本并以两个词数组结束,UserA_wordsUserB_words

我必须以哪种格式转换此数组以将其传递给 naiveBayes 或 SVM 等分类器?我如何通过例如一袋单词表示到分类器?

您问的是应该使用哪种 ML 表示来对聊天文本进行用户分类。

词袋和词向量是文本处理中常用的主要表示形式。然而,聊天的用户分类不是通常的文本处理任务,我们寻找指示特定用户的明显特征。 这里有一些:

  • 每条评论的字长、字长、句长
  • 打字速度(特别是如果你有以秒为单位的时间戳)
  • 标点符号的比例(例如 80 个字符中的 17 个标点符号 = 17/80)
  • 资本化比例
  • 数字比例
  • 空格比例
  • character n-grams(注意这些可以提取例如 l0ser, f##k, :-)
  • 使用 Unicode(表情符号、符号,例如星星)
  • 特定标点符号的比例(例如,有多少个“.”、“!”、“?”、“*”、“#”)
  • 字数统计,尤其是。任何统计异常
  • 你能想到的任何其他似乎对这两个用户有预测意义的东西,例如每句话拼错的单词数(可能是实际的拼写错误,或者来自手机上的预测滑动)