从 Spark 连接到 Redshift 时无法推断架构

Question

我已将 sparc 安装到 /opt/spark-2.2.0-bin-hadoop2.7/ 和运行 python shell 使用

pyspark --jars spark-redshift_2.10-3.0.0-preview1.jar,RedshiftJDBC42-1.2.7.1003.jar,hadoop-aws-2.7.1.jar,aws-java-sdk-1.7.4.jar

从它的文件夹。

然后我尝试使用 shell 中的以下命令从那里读取：

JDBC='jdbc:redshift://blablabla.regionblabla.redshift.amazonaws.com:5439/blabla?user=username&password=password'

from pyspark.sql import SQLContext
sql_context = SQLContext(sc)

df = sql_context.read \
    .option("url", JDBC) \
    .option("dbtable", "table_name") \
    .option("tempdir", "bucket") \
    .load()

我得到以下回溯：

Traceback (most recent call last):
  File "<stdin>", line 4, in <module>
  File "/opt/spark-2.2.0-bin-hadoop2.7/python/pyspark/sql/readwriter.py", line 165, in load
    return self._df(self._jreader.load())
  File "/opt/spark-2.2.0-bin-hadoop2.7/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in __call__
  File "/opt/spark-2.2.0-bin-hadoop2.7/python/pyspark/sql/utils.py", line 69, in deco
    raise AnalysisException(s.split(': ', 1)[1], stackTrace)
pyspark.sql.utils.AnalysisException: u'Unable to infer schema for Parquet. It must be specified manually.;'

经过一些搜索，我发现了一些问题和答案，说明这可能是因为那里没有数据。但是请求告诉我 table 不是空的。所以，我想我在连接方面有一些问题。如何解决这个问题？也许我有错误版本的 spark 或那个罐子，或者缺少一些罐子？

Answer 1

原来我需要使用

添加 AWS 凭证

sc._jsc.hadoopConfiguration().set("fs.s3.awsAccessKeyId", KEYS[0])
sc._jsc.hadoopConfiguration().set("fs.s3.awsSecretAccessKey", KEYS[1])

并添加选项以向 redshift 提供相同的凭据：

.option('forward_spark_s3_credentials', 'true')

从 Spark 连接到 Redshift 时无法推断架构

Unable to infer schema when connecting to Redshift from Spark

python

apache-spark

parquet

pyspark