从 S3 加载数据集需要什么 jar?
What jars required to load datasets from S3?
我们正在试验将数据从 Amazon S3 加载到在 Mesosphere DC/OS 下配置的 Spark 2.3 集群中。
当我们 运行 spark shell 上的代码时,spark 无法识别 S3 文件系统:
File "/root/spark/spark-2.3.0-bin-hadoop2.7/python/lib/py4j-0.10.6-src.zip/py4j/protocol.py", line 320, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: java.io.IOException: No FileSystem for scheme: s3
我们需要手动添加哪些库/jar 到 Spark 以使其识别 S3?
您可以使用 's3a://' 而不是 s3 来阅读它。
我们正在试验将数据从 Amazon S3 加载到在 Mesosphere DC/OS 下配置的 Spark 2.3 集群中。 当我们 运行 spark shell 上的代码时,spark 无法识别 S3 文件系统:
File "/root/spark/spark-2.3.0-bin-hadoop2.7/python/lib/py4j-0.10.6-src.zip/py4j/protocol.py", line 320, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: java.io.IOException: No FileSystem for scheme: s3
我们需要手动添加哪些库/jar 到 Spark 以使其识别 S3?
您可以使用 's3a://' 而不是 s3 来阅读它。