如何 "mount" 没有数据块的第 1 代数据湖
How to "mount" data lake gen 1 without databricks
我们有想要在 kubernetes 中 运行 的 pyspark 代码。它应该从第一代数据湖存储中获取数据。现在,我明白在 Databricks 中要能够访问数据湖中的文件,应该首先安装它。我想问问是否:a.) 可以 b.) 方法是什么
我发现最简单的方法是遵循 Apache Hadoop 的 this documentation。确保将正确的 JAR 下载到类路径中。
您需要在hadoop core-site.xml文件中设置各种参数,示例如下,使用ClientCredential和OAuth2(我用xxxx替换了private info):
<configuration>
<property>
<name>fs.adl.oauth2.access.token.provider.type</name>
<value>ClientCredential</value>
</property>
<property>
<name>fs.adl.oauth2.refresh.url</name>
<value>https://login.microsoftonline.com/xxxx/oauth2/token</value>
</property>
<property>
<name>fs.adl.oauth2.client.id</name>
<value>xxxx</value>
</property>
<property>
<name>fs.adl.oauth2.credential</name>
<value>xxxx</value>
</property>
</configuration>
我们有想要在 kubernetes 中 运行 的 pyspark 代码。它应该从第一代数据湖存储中获取数据。现在,我明白在 Databricks 中要能够访问数据湖中的文件,应该首先安装它。我想问问是否:a.) 可以 b.) 方法是什么
我发现最简单的方法是遵循 Apache Hadoop 的 this documentation。确保将正确的 JAR 下载到类路径中。
您需要在hadoop core-site.xml文件中设置各种参数,示例如下,使用ClientCredential和OAuth2(我用xxxx替换了private info):
<configuration>
<property>
<name>fs.adl.oauth2.access.token.provider.type</name>
<value>ClientCredential</value>
</property>
<property>
<name>fs.adl.oauth2.refresh.url</name>
<value>https://login.microsoftonline.com/xxxx/oauth2/token</value>
</property>
<property>
<name>fs.adl.oauth2.client.id</name>
<value>xxxx</value>
</property>
<property>
<name>fs.adl.oauth2.credential</name>
<value>xxxx</value>
</property>
</configuration>