Nifi:使用来源数据审计数据

Nifi: Auditing the data using provenance data

嗨,我是 nifi 的新手,我已经按照教程 here 了解了来源存储库的内容并将其移出进行审核。但我有几个问题。

  1. 来源数据的主要用途是了解一段数据到底发生了什么。但是这里的数据在流文件中。我们应该如何理解使用流文件的特定数据发生了什么?

  2. 最好的做法是始终将数据来源数据从一个 nifi 发送到另一个吗?为什么不使用 SiteToSiteProvenanceReportingTask 发送到同一个 nifi 实例中的端口并将其从那里提取出来?

  3. 可用于发送这些数据进行审计的最佳工具是什么?

希望这能回答您的问题:

  1. 你可以通过多种方式导出出处数据,从出处事件中提取流文件的内容,我相信你必须得到流文件的“内容声明”,不知道如何这样可行。因为内容声明在当前系统中没有流文件使用它时被回收,所以当内容存储库中不再存在内容时,我认为您无法查询出处事件的内容。一些组件会为它们遇到的任何 errors/status 添加一个属性。

  2. 您当然可以使用 SiteToSiteProvenanceReportingTask 将来源数据从集群发送回自身,您可能只想过滤掉处理来源数据的输入端口和进程组。

  3. 数据来源有时是一个图形问题,但事件本身通常很有用(例如,不需要知道流程),因此可以对事件本身进行分析。我已经将事件发送到 Hive table,然后能够使用 HiveQL 做一些事情,比如计算连接上的预测背压(在我们将其添加到 NiFi 之前)