Nifi：使用来源数据审计数据

Nifi: Auditing the data using provenance data

apache-nifi

嗨，我是 nifi 的新手，我已经按照教程 here 了解了来源存储库的内容并将其移出进行审核。但我有几个问题。

来源数据的主要用途是了解一段数据到底发生了什么。但是这里的数据在流文件中。我们应该如何理解使用流文件的特定数据发生了什么？
最好的做法是始终将数据来源数据从一个 nifi 发送到另一个吗？为什么不使用 SiteToSiteProvenanceReportingTask 发送到同一个 nifi 实例中的端口并将其从那里提取出来？
可用于发送这些数据进行审计的最佳工具是什么？

希望这能回答您的问题：

你可以通过多种方式导出出处数据，从出处事件中提取流文件的内容，我相信你必须得到流文件的“内容声明”，不知道如何这样可行。因为内容声明在当前系统中没有流文件使用它时被回收，所以当内容存储库中不再存在内容时，我认为您无法查询出处事件的内容。一些组件会为它们遇到的任何 errors/status 添加一个属性。
您当然可以使用 SiteToSiteProvenanceReportingTask 将来源数据从集群发送回自身，您可能只想过滤掉处理来源数据的输入端口和进程组。
数据来源有时是一个图形问题，但事件本身通常很有用（例如，不需要知道流程），因此可以对事件本身进行分析。我已经将事件发送到 Hive table，然后能够使用 HiveQL 做一些事情，比如计算连接上的预测背压（在我们将其添加到 NiFi 之前）