使用 pyspark 直接从网站读取 json 文件

Using pyspark to read json file directly from a website

是否可以使用 sqlContext 直接从网站读取 json 文件? 例如我可以这样读取文件:

myRDD = sqlContext.read.json("sample.json")

但是当我尝试这样的操作时出现错误:

myRDD = sqlContext.read.json("http://192.168.0.13:9200/sample.json")

我正在使用 Spark 1.4.1 提前致谢!

这是不可能的。您使用的路径应指向本地文件系统或 Hadoop 支持的其他文件系统。只要 sample.json 具有预期的格式(每行一个对象),您就可以尝试这样的操作:

import json
import requests

r = requests.get("http://192.168.0.13:9200/sample.json")
df = sqlContext.createDataFrame([json.loads(line) for line in r.iter_lines()])