如何创建一个功能来检测不同语言文本中的年龄?
How to create a feature that detect age in text in different languages?
我有一个多种语言的文本分类任务。如果可能的话,如果我想创建一个从文本中提取年龄的特征,应该使用什么方法 类:18-24
、25-34
、35-49
和 50-xx"
而我只有推文作为语料库。我已经准备好尝试使用所有推文,但性能非常低(0.66),知道如何完成这项任务吗?提前致谢。
由于它仍然是一项研究任务,我建议提供几个指向科学论文的链接(链接和以下摘要大部分摘自 our paper 的 'related work' 部分 - 不幸的是,是俄语,所以我稍微编辑了Google 翻译)。
所以,看看这些作品(按年份标记):2009, 2010, 2011, 2013, 2014。
总而言之:您应该查找或创建带标签的语料库,并使用具有以下功能的监督式机器学习:
- 文本特征:单词和字符的 n-gram,
- 文体特征:词性、俚语、平均句子长度、标点符号、首字母缩写词、表情符号等
- 社交网络特征:一个用户的好友数,该用户页面显示的post秒数,总post秒数,平均评论数一个 post 的用户。
我有一个多种语言的文本分类任务。如果可能的话,如果我想创建一个从文本中提取年龄的特征,应该使用什么方法 类:18-24
、25-34
、35-49
和 50-xx"
而我只有推文作为语料库。我已经准备好尝试使用所有推文,但性能非常低(0.66),知道如何完成这项任务吗?提前致谢。
由于它仍然是一项研究任务,我建议提供几个指向科学论文的链接(链接和以下摘要大部分摘自 our paper 的 'related work' 部分 - 不幸的是,是俄语,所以我稍微编辑了Google 翻译)。
所以,看看这些作品(按年份标记):2009, 2010, 2011, 2013, 2014。
总而言之:您应该查找或创建带标签的语料库,并使用具有以下功能的监督式机器学习:
- 文本特征:单词和字符的 n-gram,
- 文体特征:词性、俚语、平均句子长度、标点符号、首字母缩写词、表情符号等
- 社交网络特征:一个用户的好友数,该用户页面显示的post秒数,总post秒数,平均评论数一个 post 的用户。