如何使用 cudf 删除带有 NA 的列?
How to drop columns with NA using cudf?
Pandas:
data = data.dropna(axis = 'columns')
我正在尝试使用 cudf 数据框做类似的事情,但 api 不提供此功能。
我的解决方案是转换为 pandas df,执行上述命令,然后重新转换为 cudf。有更好的解决方案吗?
在实施dropna
之前,您可以检查每列的null_count
并删除带有null_count>0
的那些。
cuDF 现在支持基于列的 dropna
,因此以下内容将起作用:
import cudf
df = cudf.DataFrame({'a':[0,1,None], 'b':[None,0,2], 'c':[1,2,3]})
print(df)
a b c
0 0 null 1
1 1 0 2
2 null 2 3
df.dropna(axis='columns')
c
0 1
1 2
2 3
Pandas:
data = data.dropna(axis = 'columns')
我正在尝试使用 cudf 数据框做类似的事情,但 api 不提供此功能。
我的解决方案是转换为 pandas df,执行上述命令,然后重新转换为 cudf。有更好的解决方案吗?
在实施dropna
之前,您可以检查每列的null_count
并删除带有null_count>0
的那些。
cuDF 现在支持基于列的 dropna
,因此以下内容将起作用:
import cudf
df = cudf.DataFrame({'a':[0,1,None], 'b':[None,0,2], 'c':[1,2,3]})
print(df)
a b c
0 0 null 1
1 1 0 2
2 null 2 3
df.dropna(axis='columns')
c
0 1
1 2
2 3