AttributeError: 'DataFrame' object has no attribute 'randomSplit'
AttributeError: 'DataFrame' object has no attribute 'randomSplit'
我正在尝试将我的数据拆分为训练集和测试集。数据是 Koalas 数据框。但是,当我 运行 以下代码时出现错误:
AttributeError: 'DataFrame' object has no attribute 'randomSplit'
请在下面找到我正在使用的代码:
splits = Closed_new.randomSplit([0.7,0.3])
此外,我尝试了将 Koalas 转换为 pandas 后拆分数据的常用方法。但是在 Synapse 中执行需要花费很多时间。下面是代码:
state = 12
test_size = 0.30
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(Closed_new,labels,
test_size=test_size, random_state=state)
恐怕在提出这个问题时,Pyspark 的 randomSplit
在 Koalas 中还没有等效项。
您可以使用的一个技巧是将 Koalas 数据帧转换为 Spark 数据帧,使用 randomSplit
并将两个子集再次转换回 Koalas。
splits = Closed_new.to_spark().randomSplit([0.7, 0.3], seed=12)
df_train = splits[0].to_koalas()
df_test = splits[1].to_koalas()
我正在尝试将我的数据拆分为训练集和测试集。数据是 Koalas 数据框。但是,当我 运行 以下代码时出现错误:
AttributeError: 'DataFrame' object has no attribute 'randomSplit'
请在下面找到我正在使用的代码:
splits = Closed_new.randomSplit([0.7,0.3])
此外,我尝试了将 Koalas 转换为 pandas 后拆分数据的常用方法。但是在 Synapse 中执行需要花费很多时间。下面是代码:
state = 12
test_size = 0.30
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(Closed_new,labels,
test_size=test_size, random_state=state)
恐怕在提出这个问题时,Pyspark 的 randomSplit
在 Koalas 中还没有等效项。
您可以使用的一个技巧是将 Koalas 数据帧转换为 Spark 数据帧,使用 randomSplit
并将两个子集再次转换回 Koalas。
splits = Closed_new.to_spark().randomSplit([0.7, 0.3], seed=12)
df_train = splits[0].to_koalas()
df_test = splits[1].to_koalas()