如何创建一个功能来检测不同语言文本中的年龄?

How to create a feature that detect age in text in different languages?

我有一个多种语言的文本分类任务。如果可能的话,如果我想创建一个从文本中提取年龄的特征,应该使用什么方法 类:18-2425-3435-4950-xx" 而我只有推文作为语料库。我已经准备好尝试使用所有推文,但性能非常低(0.66),知道如何完成这项任务吗?提前致谢。

由于它仍然是一项研究任务,我建议提供几个指向科学论文的链接(链接和以下摘要大部分摘自 our paper 的 'related work' 部分 - 不幸的是,是俄语,所以我稍微编辑了Google 翻译)。

所以,看看这些作品(按年份标记):2009, 2010, 2011, 2013, 2014

总而言之:您应该查找或创建带标签的语料库,并使用具有以下功能的监督式机器学习:

  1. 文本特征:单词和字符的 n-gram,
  2. 文体特征:词性、俚语、平均句子长度、标点符号、首字母缩写词、表情符号等
  3. 社交网络特征:一个用户的好友数,该用户页面显示的post秒数,总post秒数,平均评论数一个 post 的用户。