如何创建一个功能来检测不同语言文本中的年龄？

How to create a feature that detect age in text in different languages?

我有一个多种语言的文本分类任务。如果可能的话，如果我想创建一个从文本中提取年龄的特征，应该使用什么方法类：18-24、25-34、35-49 和 50-xx" 而我只有推文作为语料库。我已经准备好尝试使用所有推文，但性能非常低（0.66），知道如何完成这项任务吗？提前致谢。

由于它仍然是一项研究任务，我建议提供几个指向科学论文的链接（链接和以下摘要大部分摘自 our paper 的 'related work' 部分 - 不幸的是，是俄语，所以我稍微编辑了Google 翻译）。

所以，看看这些作品（按年份标记）：2009, 2010, 2011, 2013, 2014。

总而言之：您应该查找或创建带标签的语料库，并使用具有以下功能的监督式机器学习：

文本特征：单词和字符的 n-gram，
文体特征：词性、俚语、平均句子长度、标点符号、首字母缩写词、表情符号等
社交网络特征：一个用户的好友数，该用户页面显示的post秒数，总post秒数，平均评论数一个 post 的用户。