使用 pyspark 在 Jupyter notebook 中读取 avro 文件时遇到问题

Trouble reading avro files in Jupyter notebook using pyspark

我正在尝试使用 pyspark 在 Jupyter notebook 中读取 avro 文件。当我读取文件时出现错误。

我已经下载了 spark-avro_2.11:4.0.0.jar,我不确定我应该在我的代码中的什么地方插入 avro 包。任何建议都会很棒。

这是我用来读取 avro 文件的代码示例

df_avro_example = sqlContext.read.format("com.databricks.spark.avro").load("example_file.avro")

这是我得到的错误

AnalysisException: 'Failed to find data source: com.databricks.spark.avro. Please find an Avro package at http://spark.apache.org/third-party-projects.html;'

将 jar 下载到某个位置并在您的 pyspark 应用程序中使用以下代码片段

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars /path/tojar/spark-avro_2.11:4.0.0.jar pyspark-shell'