使用 pyspark 直接从网站读取 json 文件

Question

是否可以使用 sqlContext 直接从网站读取 json 文件？例如我可以这样读取文件：

myRDD = sqlContext.read.json("sample.json")

但是当我尝试这样的操作时出现错误：

myRDD = sqlContext.read.json("http://192.168.0.13:9200/sample.json")

我正在使用 Spark 1.4.1 提前致谢！

Answer 1

这是不可能的。您使用的路径应指向本地文件系统或 Hadoop 支持的其他文件系统。只要 sample.json 具有预期的格式（每行一个对象），您就可以尝试这样的操作：

import json
import requests

r = requests.get("http://192.168.0.13:9200/sample.json")
df = sqlContext.createDataFrame([json.loads(line) for line in r.iter_lines()])

使用 pyspark 直接从网站读取 json 文件

Using pyspark to read json file directly from a website

python

apache-spark

pyspark