如何使用 cudf 删除带有 NA 的列?

How to drop columns with NA using cudf?

Pandas:

data = data.dropna(axis = 'columns')

我正在尝试使用 cudf 数据框做类似的事情,但 api 不提供此功能。

我的解决方案是转换为 pandas df,执行上述命令,然后重新转换为 cudf。有更好的解决方案吗?

在实施dropna之前,您可以检查每列的null_count并删除带有null_count>0的那些。

cuDF 现在支持基于列的 dropna,因此以下内容将起作用:

import cudf
​
df = cudf.DataFrame({'a':[0,1,None], 'b':[None,0,2], 'c':[1,2,3]})
print(df)
      a     b  c
0     0  null  1
1     1     0  2
2  null     2  3
df.dropna(axis='columns')
    c
0   1
1   2
2   3