vaex数据框是否不支持数据生成
Does vaex data frame doesn't support data generation
我有一个带有模式的数据集,
BIKE_ID
REGN_NUMBER
ENGINE_NUMBER
CHASSIS_NUMBER
BUYED_YEAR
1
XN67TY567
34567ABGN65
145089
2011
2
XN67TM567
34567ABGT65
145085
2011
3
XN67TM569
34567VBGT65
1450867
2013
.
.
.
.
.
.
.
.
.
.
2870763
XN56RTMN
34786VHGT65
14501236
2016
现在我想生成从 28,70,764 到大约 3,28,70,764 的数据,即生成大约 3000 万行
所以在 pandas 中我们可以使用下面的方法。
val = 2870764
df3['POLICY_ID'] = range(val ,val+30000000)
但是由于数据量很大pandas无法生成,所以有没有办法在Vaex中解决这个问题。
但是 Vaex 给我一个错误
ValueError: range(2870764, 5870764) 不是字符串或表达式类型,而是
所以,有人能建议我在 Vaex 中是否可以这样做。
是的,vaex 有一个名为 vrange
的函数,它完全可以满足您的需求,并且不占用内存。
示例:
import vaex
df = vaex.example()
df
这是一个包含 330,000 行的数据框(在撰写本文时使用示例数据集)。我们可以使用 vaex.vrange
生成一个新列 POLICY_ID
df["POLICY_ID"] = vaex.vrange(0, len(df))
我有一个带有模式的数据集,
BIKE_ID | REGN_NUMBER | ENGINE_NUMBER | CHASSIS_NUMBER | BUYED_YEAR |
---|---|---|---|---|
1 | XN67TY567 | 34567ABGN65 | 145089 | 2011 |
2 | XN67TM567 | 34567ABGT65 | 145085 | 2011 |
3 | XN67TM569 | 34567VBGT65 | 1450867 | 2013 |
. | . | . | . | . |
. | . | . | . | . |
2870763 | XN56RTMN | 34786VHGT65 | 14501236 | 2016 |
现在我想生成从 28,70,764 到大约 3,28,70,764 的数据,即生成大约 3000 万行 所以在 pandas 中我们可以使用下面的方法。
val = 2870764
df3['POLICY_ID'] = range(val ,val+30000000)
但是由于数据量很大pandas无法生成,所以有没有办法在Vaex中解决这个问题。
但是 Vaex 给我一个错误
ValueError: range(2870764, 5870764) 不是字符串或表达式类型,而是
所以,有人能建议我在 Vaex 中是否可以这样做。
是的,vaex 有一个名为 vrange
的函数,它完全可以满足您的需求,并且不占用内存。
示例:
import vaex
df = vaex.example()
df
这是一个包含 330,000 行的数据框(在撰写本文时使用示例数据集)。我们可以使用 vaex.vrange
POLICY_ID
df["POLICY_ID"] = vaex.vrange(0, len(df))