首页
标签

parquet

Spark 流式传输 - 原因：org.apache.parquet.io.ParquetDecodingException：无法读取文件中块 0 中 1 处的值
如何将 dask 数据帧保存到与 dask sheduler/workers 相同的机器上的镶木地板？
Amazon AWS Athena HIVE_CANNOT_OPEN_SPLIT：打开 Hive 拆分时出错/无效的 Parquet 文件，Parquet 文件使用 Athena 压缩为 gzip
PySpark 将空字符串转换为 null 并写入 Parquet
尴尬的数组：如何在存储为 Parquet（不是 BitMasked）后获取 numpy 数组？
ClassCastException: org.apache.drill.exec.expr.holders.NullableDateHolder 无法转换为 org.apache.drill.exec.expr.holders.DateHolder
无法将 spark 数据帧写入镶木地板文件格式到 PySpark 中的 C 驱动器
尴尬的数组：可以将数组附加到现有的 Parquet 文件吗？
从镶木地板文件中获取单个样本行的最有效方法
如何在 NiFi 中将 InfluxDB 线路协议转换为 Parquet
Pandas 如何将多个镶木地板文件附加到一个数据帧
使用 to_parquet 函数创建的 dask parquet 文件结构
AWS Glue 作业 - CSV 到 Parquet。如何忽略header？
使用 pyspark 迭代加载多个镶木地板文件
pyarrow 编写 Parquet 文件不断覆盖现有数据集
Spark 不推送过滤器（PushedFilters 数组为空）
记录 pyarrow 在 S3 上创建的镶木地板文件名
使用 dask 高效地只读取 blob 存储上镶木地板文件中的某些列
为什么在 dask 中计算索引 Parquet 文件的形状如此缓慢？
巨大的倾斜数据，需要分区并转换为镶木地板

1 2 ... 19 20 21 ... 53 54

©2023 WhoseBug