Python - 基于数据的变量预测

Python - Prediction of Variable Based On Data

我有一个看起来像这样的数据框。

Month Day Deadline_Changes Test  
3     19  2                English 
5     3   8                Math
3     8   34               Science 
10    2   17               Science 
5     9   21               Social
4     12  3                Math
8     29  1                Music 
12    31  9                English

第二个数据框看起来像这样。

    Month Day Test  
    5     30  Math 
    9     2   Social 
    12    9   Science 
    11    30  Music  
    8     24  Music 
    2     2   English 
    6     12  Music 
    4     9   English

我想要的输出是

        Month Day Test     Predicted_Deadline_Changes  
        5     30  Math     4
        9     2   Social   23
        12    9   Science  6
        11    30  Music    18
        8     24  Music    4
        2     2   English  2
        6     12  Music    1
        4     9   English  10

基本上,我想使用我的第一个数据框作为我的训练数据来预测我的第二个数据框的截止日期变化。

我希望我想要的输出是第二个数据帧,带有一个名为 predicted_deadline_change 的附加变量。我需要 predicted_deadline_change 变量基于训练数据。

使用 python,最好的 approach/method 是什么?

这是一个用于预测截止日期变更的简单回归模型。

train = pd.read_clipboard()
predict = pd.read_clipboard()
y = train['Deadline_Changes']
x = train.drop('Deadline_Changes',1)
le = preprocessing.LabelEncoder()
x['Test'] = le.fit_transform(x['Test'])
model = LinearRegression()
model.fit(x,y)
# remove .round() if you want exact values
predict['Predicted_Deadline_Changes'] = model.predict(x).round()
print(predict)

结果:

 Month  Day Test    Predicted_Deadline_Changes
0   5   30  Math    3.0
1   9   2   Social  10.0
2   12  9   Science 19.0
3   11  30  Music   20.0
4   8   24  Music   23.0
5   2   2   English 9.0
6   6   12  Music   10.0
7   4   9   English 0.0

有许多不同的建模技术可用于预测值,各有优缺点。

这可能是您最基本的模型,它假定自变量和因变量之间存在线性关系。