scikit-learn 中的哪些监督分类器被推荐用于大型数据集?
Which supervised classifiers in scikit-learn are recommended for large datasets?
scikit-learn 中有许多可用的监督分类器算法,但我找不到有关它们在大型数据集上的可扩展性的任何信息。我知道,例如,支持向量机在处理大量数据集时表现不佳,但其他人呢?
哪种 supervised/semi-supervised 分类器算法最适合大型数据集?
您所说的庞大数据集是指 "iris" 默认数据集吗?
取决于你想用这些算法做什么,例如训练和拟合。
我会写下我用于大数据集的那些,并且工作正常。
from sklearn.cross_validation import train_test_split
from sklearn import datasets, svm\n
import numpy as np\n
import matplotlib.pyplot as plt\n
from sklearn.model_selection import GridSearchCV\n
from sklearn.metrics import mean_squared_error\n
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import SGDRegressor\n
但是你当然需要知道你想用它们做什么。
在这里,您可以检查您想了解的有关这些或更多信息的所有信息。
http://scikit-learn.org/stable/
如果你专门在 sklearn 中寻找分类器,你可以看看这个 link : Scaling Strategies for large datasets.
通常,分类器通过创建小批量对您的数据集进行增量学习。这里有一些link供参考:
增量学习links
- Advanced ML lecture on Incremental Learning
- ML on streaming data
- Incremental Leanring
- Microsoft paper on Incremental Learning
您可以在 SKlearn 中查看这些分类器以获取更多信息
- SGD Classifier
- Passive Agrressive Classifier
- Multinomial Naive Bayes Incremental Learning
- BErnoulli Naive Bayes
如果您的数据在输入过程中以流的形式给出,您可以查看 Apache Spark Streaming and jump to MlLib in Apache Spark 了解更多信息。
您还可以查看 Feature Hasher 以了解 sklearn 中的大规模特征散列。
scikit-learn 中有许多可用的监督分类器算法,但我找不到有关它们在大型数据集上的可扩展性的任何信息。我知道,例如,支持向量机在处理大量数据集时表现不佳,但其他人呢? 哪种 supervised/semi-supervised 分类器算法最适合大型数据集?
您所说的庞大数据集是指 "iris" 默认数据集吗?
取决于你想用这些算法做什么,例如训练和拟合。 我会写下我用于大数据集的那些,并且工作正常。
from sklearn.cross_validation import train_test_split
from sklearn import datasets, svm\n
import numpy as np\n
import matplotlib.pyplot as plt\n
from sklearn.model_selection import GridSearchCV\n
from sklearn.metrics import mean_squared_error\n
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import SGDRegressor\n
但是你当然需要知道你想用它们做什么。 在这里,您可以检查您想了解的有关这些或更多信息的所有信息。 http://scikit-learn.org/stable/
如果你专门在 sklearn 中寻找分类器,你可以看看这个 link : Scaling Strategies for large datasets.
通常,分类器通过创建小批量对您的数据集进行增量学习。这里有一些link供参考:
增量学习links
- Advanced ML lecture on Incremental Learning
- ML on streaming data
- Incremental Leanring
- Microsoft paper on Incremental Learning
您可以在 SKlearn 中查看这些分类器以获取更多信息
- SGD Classifier
- Passive Agrressive Classifier
- Multinomial Naive Bayes Incremental Learning
- BErnoulli Naive Bayes
如果您的数据在输入过程中以流的形式给出,您可以查看 Apache Spark Streaming and jump to MlLib in Apache Spark 了解更多信息。
您还可以查看 Feature Hasher 以了解 sklearn 中的大规模特征散列。