java.io.IOException:尝试从 IBM Cloud Object Storage 的 Spark 集群读取镶木地板文件时无法读取文件 FileStatus 的页脚

java.io.IOException: Could not read footer for file FileStatus when trying to read parquet file from Spark cluster from IBM Cloud Object Storage

我已经在 Kubernetes 上创建了一个包含 3 个工作人员的 Spark 集群和一个附加到它的 JupyterHub 部署,这样我就可以 运行 大量查询。

我的 parquet 文件存储在 IBM Cloud Object Storage (COS) 中,当我 运行 从 COS 读取一个简单的代码时,我收到以下错误:

Could not read footer: java.io.IOException: Could not read footer for file FileStatus{path=file:/path/myfile.parquet/_common_metadata; isDirectory=false; length=413; replication=0; blocksize=0; modification_time=0; access_time=0; owner=; group=; permission=rw-rw-rw-; isSymlink=false} at parquet.hadoop.ParquetFileReader.readAllFootersInParallel

我已将所有必需的库添加到驱动程序 SPARK_HOME 目录中的 /jars 目录中。

这是我用来连接的代码:

# Initial Setup - Once
import os

from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession

spark_session = SparkSession(sc)


credentials_staging_parquet = {
  'bucket_dm':'mybucket1',
  'bucket_eid':'bucket2',
  'secret_key':'XXXXXXXX',
  'iam_url':'https://iam.ng.bluemix.net/oidc/token',
  'api_key':'XXXXXXXX',
  'resource_instance_id':'crn:v1:bluemix:public:cloud-object-storage:global:a/XXXXX:XXXXX::',
  'access_key':'XXXXX',
  'url':'https://s3-api.us-geo.objectstorage.softlayer.net'
}

conf = {
    'fs.cos.service.access.key': credentials_staging_parquet.get('access_key'),
    'fs.cos.service.endpoint': credentials_staging_parquet.get('url'),
    'fs.cos.service.secret.key': credentials_staging_parquet.get('secret_key'),
    'fs.cos.service.iam.endpoint': credentials_staging_parquet.get('iam_url'),
    'fs.cos.service.iam.service.id': credentials_staging_parquet.get('resource_instance_id'),
    'fs.stocator.scheme.list': 'cos',
    'fs.cos.impl': 'com.ibm.stocator.fs.ObjectStoreFileSystem',
    'fs.stocator.cos.impl': 'com.ibm.stocator.fs.cos.COSAPIClient',
    'fs.stocator.cos.scheme': 'cos',
    'fs.cos.client.execution.timeout': '18000000',
    'fs.stocator.glob.bracket.support': 'true'
}

hadoop_conf = sc._jsc.hadoopConfiguration()
for key in conf:
    hadoop_conf.set(key, conf.get(key))

parquet_path = 'store/MY_FILE/*'
cos_url = 'cos://{bucket}.service/{parquet_path}'.format(bucket=credentials_staging_parquet.get('bucket_eid'), parquet_path=parquet_path)

df2 = spark_session.read.parquet(cos_url)

发现了我的问题,集群中的所有工作人员都无法使用所需的库。

有两种方法可以解决这个问题:

  • 确保您在 spark-submit 命令上添加依赖项,以便它分发到整个集群,在这种情况下,它应该在位于 /usr/local/share/jupyter/kernels/pyspark/kernel.json 的 Jupyterhub 上的 kernel.json 文件中完成(假设你创造了那个)。

  • 为集群中的每个工作人员和驱动程序添加 SPARK_HOME 上 /jars 目录的依赖项(如果您没有这样做)。

我用的是第二种方法。在我的 docker 图像创建过程中,我添加了库,因此当我启动集群时,所有容器都已经拥有所需的库。

尝试重新启动您的系统或服务器,然后它就会正常工作。

我遇到了同样的问题。当您升级 Java 版本时通常会发生这种情况,但是 spark lib 仍然指向旧的 java 版本。重新启动 server/system 即可解决问题。

我遇到了类似的错误,用 Google 搜索发现了这个 post。接下来,我意识到我有一个文件格式问题,其中保存的文件是 Avro 而文件 reader 是 Orc。所以...检查您保存的文件格式,reader 格式是否一致。