Python、不同样本量的计算逻辑回归

Computational Logistic Regression With Python, Different Sample Sizes

statistics
machine-learning
python-2.7
logistic-regression

目前，我正在尝试在 Python 中实现一个基本的逻辑回归算法来区分 A 和 B。

对于我的训练和测试数据，我有大约 50,000 个 A 样本和 1000 个 B 样本。如果我使用每个数据的一半来训练算法，另一半作为测试数据，这会不会有问题（ 25000 列 A，500 列 B 等等用于测试精度）。

如果是这样，我该如何解决这个问题。我是否应该考虑重新采样，做一些其他的 "fancy stuff".

问题的严重程度取决于数据的性质。更大的问题是你只是有一个巨大的 class 不平衡（50 As 对于每个 B）。如果您最终获得了良好的 classification 准确性，那么很好 - 无事可做。接下来做什么取决于您的数据和问题的性质以及解决方案中可接受的内容。这个问题确实没有死套 "do this" 答案。

Python、不同样本量的计算逻辑回归

Computational Logistic Regression With Python, Different Sample Sizes

statistics

machine-learning

python-2.7

logistic-regression