如何在 python 数据表 h2oai 中删除重复项
How to drop duplicates in a python datatable h2oai
python (https://github.com/h2oai/datatable/) 中的数据表包可以计算列中唯一值的数量,有没有办法用这个包删除重复值,或者我必须使用慢 pandas 包?
如果您想在单个列中查找唯一值,则可以使用函数 dt.unique()
,它接受一个列和 returns 一个包含原始所有唯一值的新列:
>>> import datatable as dt
>>> DT = dt.Frame(A=[1, 3, 2, 1, 4, 2, 1], B=list("ABCDEFG"))
>>> dt.unique(DT["A"])
| A
-- + --
0 | 1
1 | 2
2 | 3
3 | 4
[4 rows x 1 column]
另一方面,如果您有一个多列框架,并且您只想保留其中一列中具有唯一值的行,那么这相当于按该列分组,并且可以接近因此:
>>> from datatable import f, by, first
>>> DT[:, first(f[1:]), by(f[0])]
| A B
-- + -- --
0 | 1 A
1 | 2 C
2 | 3 B
3 | 4 E
[4 rows x 2 columns]
python (https://github.com/h2oai/datatable/) 中的数据表包可以计算列中唯一值的数量,有没有办法用这个包删除重复值,或者我必须使用慢 pandas 包?
如果您想在单个列中查找唯一值,则可以使用函数 dt.unique()
,它接受一个列和 returns 一个包含原始所有唯一值的新列:
>>> import datatable as dt
>>> DT = dt.Frame(A=[1, 3, 2, 1, 4, 2, 1], B=list("ABCDEFG"))
>>> dt.unique(DT["A"])
| A
-- + --
0 | 1
1 | 2
2 | 3
3 | 4
[4 rows x 1 column]
另一方面,如果您有一个多列框架,并且您只想保留其中一列中具有唯一值的行,那么这相当于按该列分组,并且可以接近因此:
>>> from datatable import f, by, first
>>> DT[:, first(f[1:]), by(f[0])]
| A B
-- + -- --
0 | 1 A
1 | 2 C
2 | 3 B
3 | 4 E
[4 rows x 2 columns]