java.io.IOException: 在 Pyspark 中写入大文件时流已损坏
java.io.IOException: Stream is corrupted while writing a Big file in Pyspark
我正在从 SQL 服务器读取大约 900 万行的数据,并将其插入到我的数据湖 (Parquet) 中已经存在的 table
此过程处理的数据较少,约为 100 万。
我只对 sql 服务器使用基本读写:
我的 Spark 提交看起来像这样:
我的 Pyspark 配置:
我已经尝试重新分区并将内存增加到 15,但仍然是同样的问题..
java.io.IOException: 流已损坏
抱歉,我无法访问完整日志
当您以这种方式读取数据时,实际上只使用了一个内核,因为 JDBC 连接器在明确配置之前不会自动并行化读取。所以很可能在读取操作期间连接超时。
您需要查看 JDBC connector options,例如 partitionColumn
、lowerBound
、upperBound
等,它们会将读取拆分为多个操作。 (也许还可以查看 fetchsize
等)
我正在从 SQL 服务器读取大约 900 万行的数据,并将其插入到我的数据湖 (Parquet) 中已经存在的 table
此过程处理的数据较少,约为 100 万。
我只对 sql 服务器使用基本读写:
我的 Spark 提交看起来像这样:
我的 Pyspark 配置:
我已经尝试重新分区并将内存增加到 15,但仍然是同样的问题..
java.io.IOException: 流已损坏
抱歉,我无法访问完整日志
当您以这种方式读取数据时,实际上只使用了一个内核,因为 JDBC 连接器在明确配置之前不会自动并行化读取。所以很可能在读取操作期间连接超时。
您需要查看 JDBC connector options,例如 partitionColumn
、lowerBound
、upperBound
等,它们会将读取拆分为多个操作。 (也许还可以查看 fetchsize
等)