稀疏数据的分类

Classification of sparse data

我正在努力寻找 classification/prediction 问题的最佳选择。让我解释一下这个任务——我有一个不同研究论文摘要关键词的数据库,我还有一个具有特定影响因子的期刊列表。我想根据他们的关键词建立一个文章分类模型,结果是给定关键词的可能影响因子(只是一个数字,没有任何进一步的期刊描述)。我删除了独特的关键字标签,因为它们没有太大的统计意义,所以我的摘要列表中只有重复 2 次或更多次的关键字(总共 6000 个关键字)。我考虑了虚拟编码——对于每篇文章,我将创建一个长度为 6000 个属性的二进制特征向量——每个属性指的是摘要中关键字的存在,并通过 SVM 对整个集合进行分类。我很确定这个解决方案不是很优雅,而且可能也不正确,你有什么更好的建议吗?

对文本和支持向量机使用这种编码策略没有错。

对于你的实际 objective:

  • 支持向量回归(SVR)可能更合适
  • 注意期刊影响因子。这是非常粗糙的。您需要考虑时间方面;而且很多非常好的作品根本没有发表在期刊上