获取 spark 的 Streaming window 时间戳

Getting Streaming window timestamp for spark

我正在使用 Spark-streaming 以特定时间间隔从零 MQ 队列接收数据,丰富它并将其保存为 parquet 文件。我想比较一个流 window 和另一个流的数据。(稍后使用镶木地板文件)

如何找到特定流媒体的时间戳 window ,我可以将其添加为另一个文件,同时丰富以方便我进行比较。

JavaStreamingContext javaStreamingContext = new JavaStreamingContext(sparkConf, new Duration(duration));
inputStream = javaStreamingContext.receiverStream(new StreamReceiver( hostName, port, StorageLevel.MEMORY_AND_DISK_SER()));
JavaDStream<myPojoFormat> enrichedData = inputStream.map(new Enricher());

简而言之,我想要每个流媒体的时间戳window。(不是记录级别而是批处理级别)

您可以使用 JavaDStreamtransform 方法获取 Function2 s 参数。 Function2 得到一个 RDD 和一个 Time 对象以及 returns 一个新的 RDD。总体结果将是一个新的 JavaDStream,其中 RDD 已根据您选择的逻辑进行了转换。