跟踪spark-submit的所有参数

Keep track of all the parameters of spark-submit

我有一个团队,其中许多成员有权通过命令行将 Spark 任务提交到 YARN(资源管理)。很难跟踪谁在使用多少内核,谁在使用多少内存……例如现在我正在寻找一种软件、框架或其他东西可以帮助我监控每个成员使用的参数。它将成为客户端和 YARN 之间的桥梁。然后我可以用它来过滤提交命令。

我确实看过 mlflow,我真的很喜欢 MLFlow Tracking,但它是为 ML 训练过程设计的。我想知道是否有其他选择可以满足我的目的?或者有任何其他解决问题的方法。

谢谢!

我的建议是自己构建这样一个工具,因为它不太复杂, 有一个包装器脚本来触发提交,它记录数据库中的使用情况,在火花作业完成后,包装器将知道发布信息。可以很容易地完成。 此外,如果您的团队已经要求提供太多信息,您甚至可以阻止新的 spark 提交。

当你自己构建它时,它非常灵活,因为你甚至可以创建 "sub teams" 或任何你想要的东西。