如何使用 python 以相同顺序再次合并两个分离的数据帧

Question

我有一个 .csv 格式的输入数据集，我试图将其输入 python 并进行一些数据分析。示例格式如下：

(df)

cus_ID hrs   mins    col4   risk
 1      2      7      1      NA
 2      3      5      1      NA
 1      1      4      6      2
 7      8      9      1      1 
 12     13     2      34     NA
 4      5      6      1      7
 16     7      10     22     NA
 12     10     3      12     9

如果您看到这里，第 5 列有 NA 值。我已经单独过滤了这个 NA 值，因此所有具有 NA 值的行都已从该数据框中删除并复制到新数据框中，因此生成的数据框如下所示：

具有 NA 值的数据帧 (df1)：

   cus_ID hrs   mins    col4   risk
    1      2      7      1      NA
    2      3      5      1      NA
    12     13     2      34     NA
    16     7      10     22     NA

没有 NA 值的数据帧 (df2):

    cus_ID hrs   mins    col4   risk
     1      1      4      6      2
     7      8      9      1      1 
     4      5      6      1      7
     12     10     3      12     9

在这里，我对 Nan 进行了一些操作和更新值。我需要按照与之前相同的顺序放置新更新的 Col5 值。示例：如果我的 NaN 值更新为 2.3、3.5、10、4，（这些值没有按顺序排列，它们以小数点或整数随机生成）现在我希望 df1 的这些更新行与 DataFrame 合并而不用NA 值 df2，我需要按照与初始数据帧相同的顺序获取更新的数据帧。

   cus_ID hrs   mins    col4   risk
    1      2      7      1      2.3(NA Value replaced)
    2      3      5      1      3.5(NA Value replaced)
    1      1      4      6      2
    7      8      9      1      1 
    12     13     2      34     10 (NA Value replaced)
    4      5      6      1      7
    16     7      10     22     4 (NA Value replaced)
    12     10     3      12     9

注意：我希望按照与初始数据帧相同的顺序附加这些更新的行。我分裂的主要原因是，我正在使用某种操作来预测 NA 值。仅作为示例，我提供了 Dataframe 的基本表示，但我的有数千条记录和许多其他属性，并且风险列中有许多随机分布的 NA 值。我通过一些操作找到了 NA 值，并用一些值填充了所有空值。但现在我正在研究如何用这个计算出的 NA 值替换我的初始数据集上的 NA 值。我应该做某种 concat 还是应该将 df2 与我的初始数据帧 df 进行比较并做一些 groupby 选项（考虑客户 ID 或小时或任何其他属性）来替换 NA 值？我想使用 python pandas 来实现它。有人可以帮我提供代码吗？

Answer 1

您可以在不拆分数据帧的情况下执行此操作：

df.loc[pd.isnull(df.col5),'col5']= np.arange(3)

将产生您正在寻找的结果：

In [89]: df
Out[89]:
   col1  col2  col3  col4  col5
0     1     0     0     1     0
1     2     3     5     1     1
2     1     1     4     6     2
3     7     8     9     1     1
4    12    13     0    34     5
5     4     5     6     1     2

Answer 2

您可以使用 concat with sort_index:

print df
   cus_ID  hrs  mins  col4  risk
0       1    2     7     1   NaN
1       2    3     5     1   NaN
2       1    1     4     6   2.0
3       7    8     9     1   1.0
4      12   13     2    34   NaN
5       4    5     6     1   7.0
6      16    7    10    22   NaN
7      12   10     3    12   9.0

df1 = df[df.risk.isnull()].copy()
print df1
   cus_ID  hrs  mins  col4  risk
0       1    2     7     1   NaN
1       2    3     5     1   NaN
4      12   13     2    34   NaN
6      16    7    10    22   NaN

df2 = df[df.risk.notnull()].copy()
print df2
   cus_ID  hrs  mins  col4  risk
2       1    1     4     6   2.0
3       7    8     9     1   1.0
5       4    5     6     1   7.0
7      12   10     3    12   9.0

#append values to column risk
df1['risk'] = [2.3,3.5,10,4]
print df1
   cus_ID  hrs  mins  col4  risk
0       1    2     7     1   2.3
1       2    3     5     1   3.5
4      12   13     2    34  10.0
6      16    7    10    22   4.0

print pd.concat([df1,df2]).sort_index()
   cus_ID  hrs  mins  col4  risk
0       1    2     7     1   2.3
1       2    3     5     1   3.5
2       1    1     4     6   2.0
3       7    8     9     1   1.0
4      12   13     2    34  10.0
5       4    5     6     1   7.0
6      16    7    10    22   4.0
7      12   10     3    12   9.0

如何使用 python 以相同顺序再次合并两个分离的数据帧

How to merge two separated dataframes again in the same order using python

python

numpy

data-analysis

dataframe

pandas