初学者统计:根据历史预测一组数字的二元结果(逻辑回归)

Beginner stats: Predict binary outcome of set of numbers given history (Logistic regression)

对于这个问题的简单性,我提前表示歉意。我没有统计背景,并且迷失在这一切的复杂性中。

如果我有几千个数字都带有二进制结果

number,outcome
14,0
27,1
88,1
04,0
42,1 

我如何预测未来的数字?例如:

82
45
02

或者这会因为只有一个变量而变得不准确吗?我见过的所有示例都使用了多个变量。

我一直在研究 statsmodels 并学习了这个很棒的教程:http://blog.yhathq.com/posts/logistic-regression-and-python.html。通过它我做了这个:

import pandas as pd
import statsmodels.api as sm

df = pd.read_csv("binary.csv")
df.columns = ["number", "outcome"]
data = df[['number', 'outcome']]
train_cols = data.columns[0]
logit = sm.Logit(data['outcome'], data[train_cols])
result = logit.fit()
print result.summary()

但这似乎是在分析当前数字的权重,您如何预测新数字?我的做法是否正确?

拟合的结果应该有一个方法predict()。这就是您需要用来预测未来值的内容,例如:

result = sm.Logit(outcomes, values).fit()
result.predict([82,45,2])