Multi-label 大型数据集的分类方法

Multi-label classification methods for large dataset

我发现还有一个标题相似的问题，但我的数据集非常不同。

我有将近 4000 万行和大约 3000 个标签。运行一个简单的 sklearn train_test_split 需要将近 20 分钟。

我最初使用的是 multi-class 分类模型，因为这是我的全部经验，并且意识到因为我需要想出所有可能的标签，所以我应该使用特定记录一种multi-label分类方法。

我正在寻找有关如何有效执行此操作的建议。我尝试了二元相关性，训练了将近 4 个小时。分类器链在 22 小时后因内存错误而出错。我不敢尝试标签 powerset，因为我读过它们不能很好地处理大量数据。最后，我有适应算法，MlkNN，然后是集成方法（我也担心性能方面的问题）。

还有其他人遇到过此类问题和数据量吗？除了建议的模型，我还希望获得有关最佳训练方法的建议，例如 train_test_split 比率或 different/better 方法。

这种规模的工作 20 分钟似乎并不长，培训 4 小时也不算长。

我真的很想试试 vowpal wabbit。它擅长处理此类多标签问题，如果您正在寻找它，它可能会提供无与伦比的性能。它需要大量调整，并且仍然需要高质量的训练数据，但这是非常值得的。这本质上只是一个二元分类问题。集成当然会花费更长的时间，因此根据您的准确性要求考虑是否有必要。