获取 spark 的 Streaming window 时间戳
Getting Streaming window timestamp for spark
我正在使用 Spark-streaming 以特定时间间隔从零 MQ 队列接收数据,丰富它并将其保存为 parquet 文件。我想比较一个流 window 和另一个流的数据。(稍后使用镶木地板文件)
如何找到特定流媒体的时间戳 window ,我可以将其添加为另一个文件,同时丰富以方便我进行比较。
JavaStreamingContext javaStreamingContext = new JavaStreamingContext(sparkConf, new Duration(duration));
inputStream = javaStreamingContext.receiverStream(new StreamReceiver( hostName, port, StorageLevel.MEMORY_AND_DISK_SER()));
JavaDStream<myPojoFormat> enrichedData = inputStream.map(new Enricher());
简而言之,我想要每个流媒体的时间戳window。(不是记录级别而是批处理级别)
您可以使用 JavaDStream
的 transform
方法获取 Function2
s 参数。 Function2
得到一个 RDD
和一个 Time
对象以及 returns 一个新的 RDD。总体结果将是一个新的 JavaDStream
,其中 RDD
已根据您选择的逻辑进行了转换。
我正在使用 Spark-streaming 以特定时间间隔从零 MQ 队列接收数据,丰富它并将其保存为 parquet 文件。我想比较一个流 window 和另一个流的数据。(稍后使用镶木地板文件)
如何找到特定流媒体的时间戳 window ,我可以将其添加为另一个文件,同时丰富以方便我进行比较。
JavaStreamingContext javaStreamingContext = new JavaStreamingContext(sparkConf, new Duration(duration));
inputStream = javaStreamingContext.receiverStream(new StreamReceiver( hostName, port, StorageLevel.MEMORY_AND_DISK_SER()));
JavaDStream<myPojoFormat> enrichedData = inputStream.map(new Enricher());
简而言之,我想要每个流媒体的时间戳window。(不是记录级别而是批处理级别)
您可以使用 JavaDStream
的 transform
方法获取 Function2
s 参数。 Function2
得到一个 RDD
和一个 Time
对象以及 returns 一个新的 RDD。总体结果将是一个新的 JavaDStream
,其中 RDD
已根据您选择的逻辑进行了转换。