如何将 Spark 中的 ORC 数据框转换为其他数据框?
How do I convert an ORC dataframe in Spark to something else?
我有一个从 Spark 中的 hive/orc 读入的数据集,但是我遇到了从 csv 读入时没有遇到的各种错误。我怎样才能告诉 spark 在不访问磁盘的情况下将该数据集转换为非 orc 的数据集?现在我正在使用这个:
FileSystem.get(sc.hadoopConfiguration).delete(new Path(name));
loadedTbl.write.json(name);
val q = hc.read.json(name);
您可以改写成任何格式并使用它。
df.write.json('json_file_name')
df.write.parquet('parquet_file_name')
我有一个从 Spark 中的 hive/orc 读入的数据集,但是我遇到了从 csv 读入时没有遇到的各种错误。我怎样才能告诉 spark 在不访问磁盘的情况下将该数据集转换为非 orc 的数据集?现在我正在使用这个:
FileSystem.get(sc.hadoopConfiguration).delete(new Path(name));
loadedTbl.write.json(name);
val q = hc.read.json(name);
您可以改写成任何格式并使用它。
df.write.json('json_file_name')
df.write.parquet('parquet_file_name')