使用 DataFrameReader 从 S3 读取文件
Read files from S3 with DataFrameReader
您好,我在使用 DataFrameReader 从 S3 读取文件时遇到问题
我能够在本地读取完全相同的文件
但是当它存储在 s3 上时我无法读取它,这是我的代码片段
private SparkSession getSparkSession() {
return sparkSessionService.getTransformedCsvSparkSession();
}
public void processFile(StructType structType, String srcFile, String targetFile) {
//"s3n://yourAccessKey:yourSecretKey@/path/
String spark = new String("s3n://TTTTTTTT:YYYYYYY@/bucket-qa1/test/123456785_Ads_mockup_.csv");
Dataset<Row> dfSpark = getSparkSession().read().format("csv").schema(structType).option("header", srcIncludeHeader).load(spark);
dfSpark.show();
但是我得到了这个错误:
java.lang.IllegalArgumentException: Invalid hostname in URI s3n://.....
我正在使用 DataBrics:
我如何 "tell" DataFrameReader 从 AWS S3 读取数据?
bucket名称前不应该有斜杠,文件路径上有斜杠是可以的
您好,我在使用 DataFrameReader 从 S3 读取文件时遇到问题 我能够在本地读取完全相同的文件 但是当它存储在 s3 上时我无法读取它,这是我的代码片段
private SparkSession getSparkSession() {
return sparkSessionService.getTransformedCsvSparkSession();
}
public void processFile(StructType structType, String srcFile, String targetFile) {
//"s3n://yourAccessKey:yourSecretKey@/path/
String spark = new String("s3n://TTTTTTTT:YYYYYYY@/bucket-qa1/test/123456785_Ads_mockup_.csv");
Dataset<Row> dfSpark = getSparkSession().read().format("csv").schema(structType).option("header", srcIncludeHeader).load(spark);
dfSpark.show();
但是我得到了这个错误:
java.lang.IllegalArgumentException: Invalid hostname in URI s3n://.....
我正在使用 DataBrics:
我如何 "tell" DataFrameReader 从 AWS S3 读取数据?
bucket名称前不应该有斜杠,文件路径上有斜杠是可以的