scikit-learn 中的哪些监督分类器被推荐用于大型数据集？

Question

scikit-learn 中有许多可用的监督分类器算法，但我找不到有关它们在大型数据集上的可扩展性的任何信息。我知道，例如，支持向量机在处理大量数据集时表现不佳，但其他人呢？哪种 supervised/semi-supervised 分类器算法最适合大型数据集？

Answer 1

您所说的庞大数据集是指 "iris" 默认数据集吗？

取决于你想用这些算法做什么，例如训练和拟合。我会写下我用于大数据集的那些，并且工作正常。

from sklearn.cross_validation import train_test_split
from sklearn import datasets, svm\n
import numpy as np\n
import matplotlib.pyplot as plt\n
from sklearn.model_selection import GridSearchCV\n
from sklearn.metrics import mean_squared_error\n
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import SGDRegressor\n

但是你当然需要知道你想用它们做什么。在这里，您可以检查您想了解的有关这些或更多信息的所有信息。 http://scikit-learn.org/stable/

Answer 2

如果你专门在 sklearn 中寻找分类器，你可以看看这个 link : Scaling Strategies for large datasets.

通常，分类器通过创建小批量对您的数据集进行增量学习。这里有一些link供参考：

增量学习links

您可以在 SKlearn 中查看这些分类器以获取更多信息

如果您的数据在输入过程中以流的形式给出，您可以查看 Apache Spark Streaming and jump to MlLib in Apache Spark 了解更多信息。

您还可以查看 Feature Hasher 以了解 sklearn 中的大规模特征散列。

scikit-learn 中的哪些监督分类器被推荐用于大型数据集？

Which supervised classifiers in scikit-learn are recommended for large datasets?

machine-learning

large-data-volumes

large-files

large-data

scikit-learn