使用 pyspark 在 Jupyter notebook 中读取 avro 文件时遇到问题
Trouble reading avro files in Jupyter notebook using pyspark
我正在尝试使用 pyspark 在 Jupyter notebook 中读取 avro 文件。当我读取文件时出现错误。
我已经下载了 spark-avro_2.11:4.0.0.jar,我不确定我应该在我的代码中的什么地方插入 avro 包。任何建议都会很棒。
这是我用来读取 avro 文件的代码示例
df_avro_example = sqlContext.read.format("com.databricks.spark.avro").load("example_file.avro")
这是我得到的错误
AnalysisException: 'Failed to find data source: com.databricks.spark.avro. Please find an Avro package at http://spark.apache.org/third-party-projects.html;'
将 jar 下载到某个位置并在您的 pyspark 应用程序中使用以下代码片段
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars /path/tojar/spark-avro_2.11:4.0.0.jar pyspark-shell'
我正在尝试使用 pyspark 在 Jupyter notebook 中读取 avro 文件。当我读取文件时出现错误。
我已经下载了 spark-avro_2.11:4.0.0.jar,我不确定我应该在我的代码中的什么地方插入 avro 包。任何建议都会很棒。
这是我用来读取 avro 文件的代码示例
df_avro_example = sqlContext.read.format("com.databricks.spark.avro").load("example_file.avro")
这是我得到的错误
AnalysisException: 'Failed to find data source: com.databricks.spark.avro. Please find an Avro package at http://spark.apache.org/third-party-projects.html;'
将 jar 下载到某个位置并在您的 pyspark 应用程序中使用以下代码片段
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars /path/tojar/spark-avro_2.11:4.0.0.jar pyspark-shell'