Azure Databricks Spark XML 库 - 尝试读取 xml 文件
Azure Databricks Spark XML Library - Trying to read xml files
我正在尝试创建一个 databricks notebook 以从 Azure Data Lake 读取 xml 文件并转换为 parquet。我从这里得到了 spark-xml 库 - [https://github.com/databricks/spark-xml]。我按照 github 中提供的示例进行操作,但无法使其正常工作。
df = (spark.read.format("xml")
.option("rootTag","catalog") \
.option("rowTag", "book") \
.load("adl://mysandbox.azuredatalakestore.net/Source/catalog.xml"))
Exception Details:
java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class
StackTrace:
/databricks/spark/python/pyspark/sql/readwriter.py in load(self, path,
format, schema, **options)
164 self.options(**options)
165 if isinstance(path, basestring):
--> 166 return self._df(self._jreader.load(path))
167 elif path is not None:
168 if type(path) != list:
/databricks/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py in
__call__(self, *args)
1255 answer = self.gateway_client.send_command(command)
1256 return_value = get_return_value(
-> 1257 answer, self.gateway_client, self.target_id,
self.name)
1258
是否需要为解析 xml 定义任何其他依赖项?感谢您的帮助。
呼,问题终于解决了。错误消息没有提供异常的任何详细信息,但问题在于 spark-xml 库与集群的 scala 版本之间的版本差异。我更新了库以匹配我的集群版本并解决了问题。希望对遇到同样问题的人有所帮助。
我正在尝试创建一个 databricks notebook 以从 Azure Data Lake 读取 xml 文件并转换为 parquet。我从这里得到了 spark-xml 库 - [https://github.com/databricks/spark-xml]。我按照 github 中提供的示例进行操作,但无法使其正常工作。
df = (spark.read.format("xml")
.option("rootTag","catalog") \
.option("rowTag", "book") \
.load("adl://mysandbox.azuredatalakestore.net/Source/catalog.xml"))
Exception Details:
java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class
StackTrace:
/databricks/spark/python/pyspark/sql/readwriter.py in load(self, path,
format, schema, **options)
164 self.options(**options)
165 if isinstance(path, basestring):
--> 166 return self._df(self._jreader.load(path))
167 elif path is not None:
168 if type(path) != list:
/databricks/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py in
__call__(self, *args)
1255 answer = self.gateway_client.send_command(command)
1256 return_value = get_return_value(
-> 1257 answer, self.gateway_client, self.target_id,
self.name)
1258
是否需要为解析 xml 定义任何其他依赖项?感谢您的帮助。
呼,问题终于解决了。错误消息没有提供异常的任何详细信息,但问题在于 spark-xml 库与集群的 scala 版本之间的版本差异。我更新了库以匹配我的集群版本并解决了问题。希望对遇到同样问题的人有所帮助。