稀疏数据的分类

Classification of sparse data

我正在努力寻找 classification/prediction 问题的最佳选择。让我解释一下这个任务——我有一个不同研究论文摘要关键词的数据库，我还有一个具有特定影响因子的期刊列表。我想根据他们的关键词建立一个文章分类模型，结果是给定关键词的可能影响因子（只是一个数字，没有任何进一步的期刊描述）。我删除了独特的关键字标签，因为它们没有太大的统计意义，所以我的摘要列表中只有重复 2 次或更多次的关键字（总共 6000 个关键字）。我考虑了虚拟编码——对于每篇文章，我将创建一个长度为 6000 个属性的二进制特征向量——每个属性指的是摘要中关键字的存在，并通过 SVM 对整个集合进行分类。我很确定这个解决方案不是很优雅，而且可能也不正确，你有什么更好的建议吗？

对文本和支持向量机使用这种编码策略没有错。

对于你的实际 objective:

支持向量回归（SVR）可能更合适
注意期刊影响因子。这是非常粗糙的。您需要考虑时间方面；而且很多非常好的作品根本没有发表在期刊上

稀疏数据的分类

Classification of sparse data

python

r

classification

data-mining

text-classification