当某些 json 类型的列具有某些空属性时，如何避免 PySpark from_json 到 return 读取 csv 上的整个空行

Question

我实际上遇到了一个问题，希望我能解释一下。

我正在尝试使用 PySpark 解析 CSV 文件。此 csv 文件有一些 JSON 列。这些 Json 列具有相同的架构，但填充方式不同。

例如我有：

{"targetUrl":"https://snowplowanalytics.com/products/snowplow-insights", "elementId":NULL, "elementClasses":NULL,"elementTarget":NULL}

或

{"targetUrl":"https://snowplowanalytics.com/request-demo/", "elementId":"button-request-demo-header-page", "elementClasses":["btn","btn-primary","call-to-action"]}

大气压，当我做的时候:

simpleSchema = st.StructType([
    st.StructField("targetUrl",st.StringType(),True),
    st.StructField("elementId",st.StringType(),True),
    st.StructField("elementClasses",st.StringType(),True)
])

          
df = spark.read.format("csv").option("header","true").option("quoteAll","true").option("escape", "\"").load("./Sources/explore_snowplow_data_raw.csv")
df.select(fn.from_json(fn.col("link_click_event"),simpleSchema).alias("linkJson")).select("linkJson.*").show(50)

（link_click_event 是我的 JSON 列名称）

只有我的第二个 JSON 字段被完全返回，因为没有值是 null。

我的问题是第一行返回为

+--------------------+--------------------+--------------------+
|           targetUrl|           elementId|      elementClasses|
+--------------------+--------------------+--------------------+
|                null|                null|                null|

我怎样才能得到第一行的结果？

+--------------------+--------------------+--------------------+
|           targetUrl|           elementId|      elementClasses|
+--------------------+--------------------+--------------------+
|"https://snowplo"...|                null|                null|

非常感谢

Answer 1

因为你的 json 没有被字符串化（但我认为你的情况很好），它无法正确读取测试用例。所以我做到了。

col1
"{\"targetUrl\":\"https://snowplowanalytics.com/products/snowplow-insights\",\"elementId\":null,\"elementClasses\":null,\"elementTarget\":null}"
"{\"targetUrl\":\"https://snowplowanalytics.com/request-demo/\", \"elementId\":\"button-request-demo-header-page\", \"elementClasses\":[\"btn\",\"btn-primary\",\"call-to-action\"]}"

使用此代码后，

import pyspark.sql.functions as f
from pyspark.sql import types as st

simpleSchema = st.StructType([
    st.StructField("targetUrl",st.StringType(),True),
    st.StructField("elementId",st.StringType(),True),
    st.StructField("elementClasses",st.ArrayType(st.StringType()),True),
    st.StructField("elementTarget",st.StringType(),True)
])

df.withColumn('col1', f.from_json('col1', simpleSchema)).show(10, False)

+-------------------------------------------------------------------------------------------------------------------+
|col1                                                                                                               |
+-------------------------------------------------------------------------------------------------------------------+
|[https://snowplowanalytics.com/products/snowplow-insights,,,]                                                      |
|[https://snowplowanalytics.com/request-demo/, button-request-demo-header-page, [btn, btn-primary, call-to-action],]|
+-------------------------------------------------------------------------------------------------------------------+

它工作正常。

Answer 2

primitivesAsString 参数为 True 对我有用。

primitivesAsString – 将所有原始值推断为字符串类型。如果设置 None，则使用默认值 false。

当某些 json 类型的列具有某些空属性时，如何避免 PySpark from_json 到 return 读取 csv 上的整个空行

How to avoid PySpark from_json to return an entire null row on csv reading when some json typed columns have some null attributes

csv

json

apache-spark

pyspark

fromjson