从 PubSub 到 Java API 的 Snowplow 数据处理

Snowplow Data Processing from PubSub to Java API

我正在使用 Snowplow 进行行为数据跟踪。我可以使用 Snowplow 加载器(和增变器)开源代码(https://docs.snowplowanalytics.com/docs/getting-started-on-snowplow-open-source/setup-snowplow-on-gcp/setup-bigquery-destination/)将数据从 Pub/Sub 消耗到 BigQuery,但我想将数据从 Pub/Sub 消耗到 Java API直接。

但是,来自 Pub/Sub 的数据是非结构化的,没有字符串格式的模式。数据包括“\t”作为分隔符以及“{}”来存储一些模式,这可能需要字符串处理来进行数据格式化。

有没有其他更好的方法将数据从Pub/Sub解码为JavaAPI而不是编写复杂的字符串处理。谢谢!

Snowplow 维护了一些所谓的 'analytics SDKs',让您可以将丰富的混合 tsv + JSON 格式转换为普通的 JSON,然后可以在下游应用程序中使用。

对于 Java,您最好的选择可能是 Scala Analytics SDK:https://github.com/snowplow/snowplow-scala-analytics-sdk

还有 .NETGoJavaScriptPython 的 SDK:https://github.com/snowplow/snowplow/tree/master/5-data-modeling/analytics-sdk