Table 到 pandas 正在终止我在 azure Synapse 中的会话
Table to pandas is killing my session in azure Synapse
我正在以 table 的形式将数据库中的 table 调用到突触中。然后我的下一步是转换为pandas,这样当我将table转换为pandas时,我可以运行所有与pandas.However相关的代码,会话被杀。我已经转换为镶木地板文件,但是我无法从 table 转换为镶木地板,然后读取为 pandas 数据框。对此有什么最佳实践吗:
%pyspark
rawdata = spark.sql("""select Invoice_Flag,
Vendor_Name,Market,
Inv_Age,Inv_Amount_In_GC,
Inv_Early_Late_Flag
FROM default.Regression_copy where Market='India'""")
%%pyspark
model_data= rawdata.select("*").toPandas()
正是在这个转换为pandas的过程中,会话被杀死可能是因为数据量过大
databricks 优化 pandas 包名为 koalas,所以我会尝试 databricks.koalas (install databricks.koalas as ks
) 并使用 ks.DataFrame(rawdata)
.[=12 转换为 koalas 数据帧=]
我正在以 table 的形式将数据库中的 table 调用到突触中。然后我的下一步是转换为pandas,这样当我将table转换为pandas时,我可以运行所有与pandas.However相关的代码,会话被杀。我已经转换为镶木地板文件,但是我无法从 table 转换为镶木地板,然后读取为 pandas 数据框。对此有什么最佳实践吗:
%pyspark
rawdata = spark.sql("""select Invoice_Flag,
Vendor_Name,Market,
Inv_Age,Inv_Amount_In_GC,
Inv_Early_Late_Flag
FROM default.Regression_copy where Market='India'""")
%%pyspark
model_data= rawdata.select("*").toPandas()
正是在这个转换为pandas的过程中,会话被杀死可能是因为数据量过大
databricks 优化 pandas 包名为 koalas,所以我会尝试 databricks.koalas (install databricks.koalas as ks
) 并使用 ks.DataFrame(rawdata)
.[=12 转换为 koalas 数据帧=]