在 DSX 上导入 SparkSession DataFrame
Importing a SparkSession DataFrame on DSX
我目前正在研究数据科学经验,并希望将 CSV 文件导入为 SparkSession DataFrame。我能够成功导入 DataFrame,但是,所有列属性都转换为字符串类型。如何使此 DSX 功能识别 CSV 文件中存在的类型?
目前,实际创建 pyspark.sql.DataFrame
的生成代码如下所示:
df_data_1 = spark.read\
.format('org.apache.spark.sql.execution.datasources.csv.CSVFileFormat')\
.option('header', 'true')\
.load('swift://container_name.' + name + '/test.csv')
df_data_1.take(5)
您必须添加以下选项,然后将推断架构:
.option(inferschema='true')\
我目前正在研究数据科学经验,并希望将 CSV 文件导入为 SparkSession DataFrame。我能够成功导入 DataFrame,但是,所有列属性都转换为字符串类型。如何使此 DSX 功能识别 CSV 文件中存在的类型?
目前,实际创建 pyspark.sql.DataFrame
的生成代码如下所示:
df_data_1 = spark.read\
.format('org.apache.spark.sql.execution.datasources.csv.CSVFileFormat')\
.option('header', 'true')\
.load('swift://container_name.' + name + '/test.csv')
df_data_1.take(5)
您必须添加以下选项,然后将推断架构:
.option(inferschema='true')\