StackOverflow Tags Predictor…请推荐一种机器学习方法?
StackOverflow Tags Predictor…Suggest an Machine Learning Approach please?
我正在尝试预测 Whosebug 问题的标签,但我无法确定哪种机器学习算法是正确的方法。
输入: 作为一个数据集,我挖掘了 Whosebug 问题,我对数据集进行了标记,并从该数据中删除了停用词和标点符号。
我尝试过的事情:
- TF-IDF
- 在数据集上训练朴素贝叶斯,然后提供用户定义的输入来预测标签,但它无法正常工作
- 线性 SVM
我应该使用哪种 ML 算法有监督或无监督?如果可能的话,请从头开始建议正确的 ML 方法。 PS:我有 Whosebug 上存在的所有标签的列表,所以这有帮助吗?谢谢
我会尝试 MLP。为了开始,我会选择一组相当小的关键字作为输入并对它们进行编码 [例如 1..100] 并训练一组相当小的输出标签。
PS:对于这个任务,无监督学习一般来说是不利的,因为许多涉及不同标签的问题具有非常相似的内容并且很可能聚集在一起。
我正在尝试预测 Whosebug 问题的标签,但我无法确定哪种机器学习算法是正确的方法。
输入: 作为一个数据集,我挖掘了 Whosebug 问题,我对数据集进行了标记,并从该数据中删除了停用词和标点符号。
我尝试过的事情:
- TF-IDF
- 在数据集上训练朴素贝叶斯,然后提供用户定义的输入来预测标签,但它无法正常工作
- 线性 SVM
我应该使用哪种 ML 算法有监督或无监督?如果可能的话,请从头开始建议正确的 ML 方法。 PS:我有 Whosebug 上存在的所有标签的列表,所以这有帮助吗?谢谢
我会尝试 MLP。为了开始,我会选择一组相当小的关键字作为输入并对它们进行编码 [例如 1..100] 并训练一组相当小的输出标签。
PS:对于这个任务,无监督学习一般来说是不利的,因为许多涉及不同标签的问题具有非常相似的内容并且很可能聚集在一起。