在 Databricks+Spark 笔记本中使用 curl

Using curl within a Databricks+Spark notebook

我是 运行 使用 Databricks 的 Spark 集群。我想使用 curl 从服务器传输数据。例如,

curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "https://websites.net/Automation/Offline?startTimeInclusive=201609240100&endTimeExclusive=201609240200&dataFormat=json" -k > automation.json

如何在 Databricks notebook 中执行此操作(最好在 python 中,但 Scala 也可以)?

在 Scala 中,您可以执行以下操作:

import sys.process._
val command = """curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "http://google.com" -k > /home/user/automation.json"""
Seq("/bin/bash", "-c", command).!!

在 Databricks 中,您可以通过将 %sh 设为单元格的第一行来从单元格中 运行 shell 命令:

%sh
curl -H "Content-Type: application/json" -H "auth:xxxx" -X GET "https://websites.net/Automation/Offline?startTimeInclusive=201609240100&endTimeExclusive=201609240200&dataFormat=json" -k > automation.json