使用 pyspark 直接从网站读取 json 文件
Using pyspark to read json file directly from a website
是否可以使用 sqlContext 直接从网站读取 json 文件?
例如我可以这样读取文件:
myRDD = sqlContext.read.json("sample.json")
但是当我尝试这样的操作时出现错误:
myRDD = sqlContext.read.json("http://192.168.0.13:9200/sample.json")
我正在使用 Spark 1.4.1
提前致谢!
这是不可能的。您使用的路径应指向本地文件系统或 Hadoop 支持的其他文件系统。只要 sample.json
具有预期的格式(每行一个对象),您就可以尝试这样的操作:
import json
import requests
r = requests.get("http://192.168.0.13:9200/sample.json")
df = sqlContext.createDataFrame([json.loads(line) for line in r.iter_lines()])
是否可以使用 sqlContext 直接从网站读取 json 文件? 例如我可以这样读取文件:
myRDD = sqlContext.read.json("sample.json")
但是当我尝试这样的操作时出现错误:
myRDD = sqlContext.read.json("http://192.168.0.13:9200/sample.json")
我正在使用 Spark 1.4.1 提前致谢!
这是不可能的。您使用的路径应指向本地文件系统或 Hadoop 支持的其他文件系统。只要 sample.json
具有预期的格式(每行一个对象),您就可以尝试这样的操作:
import json
import requests
r = requests.get("http://192.168.0.13:9200/sample.json")
df = sqlContext.createDataFrame([json.loads(line) for line in r.iter_lines()])