scikit-learn 中的哪些监督分类器被推荐用于大型数据集?

Which supervised classifiers in scikit-learn are recommended for large datasets?

scikit-learn 中有许多可用的监督分类器算法,但我找不到有关它们在大型数据集上的可扩展性的任何信息。我知道,例如,支持向量机在处理大量数据集时表现不佳,但其他人呢? 哪种 supervised/semi-supervised 分类器算法最适合大型数据集?

您所说的庞大数据集是指 "iris" 默认数据集吗?

取决于你想用这些算法做什么,例如训练和拟合。 我会写下我用于大数据集的那些,并且工作正常。

from sklearn.cross_validation import train_test_split
from sklearn import datasets, svm\n
import numpy as np\n
import matplotlib.pyplot as plt\n
from sklearn.model_selection import GridSearchCV\n
from sklearn.metrics import mean_squared_error\n
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import SGDRegressor\n

但是你当然需要知道你想用它们做什么。 在这里,您可以检查您想了解的有关这些或更多信息的所有信息。 http://scikit-learn.org/stable/

如果你专门在 sklearn 中寻找分类器,你可以看看这个 link : Scaling Strategies for large datasets.

通常,分类器通过创建小批量对您的数据集进行增量学习。这里有一些link供参考:

增量学习links

您可以在 SKlearn 中查看这些分类器以获取更多信息

如果您的数据在输入过程中以流的形式给出,您可以查看 Apache Spark Streaming and jump to MlLib in Apache Spark 了解更多信息。

您还可以查看 Feature Hasher 以了解 sklearn 中的大规模特征散列。