如何降低在数据块中工作的财务成本?

How can I reduce the financial cost of working in databricks?

只是想知道在使用数据块时是否有人对最佳实践有任何想法。在数据块中进行开发在财务上花费很多,因此想知道在其他什么地方开发 python 代码最好。考虑到协作工作,是否有类似的数据块设置用于协作工作这是免费的或使用成本很低。

任何建议,不胜感激!

Databricks 的成本确实与您所在的集群的大小有关 运行(1 个工人、1 个 driver 或 1 个 driver 32 个工人?),规格集群中的机器(低 RAM 和 CPU 或高 RAM 和 CPU),以及你离开它们多长时间 运行(总是 运行 或短的生存时间,又名"Terminate after x minutes of inactivity"。我还假设您不是 运行 始终在线的高并发集群模式。

一些一般性建议是:

  • 在开发中使用较小的数据集,例如代表性样本,这将使您能够...
  • 在开发中使用较小的集群,例如,不要使用 32 节点的大型集群,而是使用 2 节点的小型集群
  • 将生存时间设置得尽可能短,例如 15 分钟
  • 两者结合起来会降低您的成本

显然 trade-off 需要组装代表性样本并确保您的输出仍然准确有用,但这取决于您。