Spark Stream 加入静态数据块增量的可靠性如何 table
How reliable is spark stream join with static databricks delta table
在数据块 there is a cool feature 中,允许使用增量 table 加入流式数据帧。很酷的部分是 delta table 中的变化仍然反映在后续的连接结果中。它工作得很好,但我很想知道它是如何工作的,这里有什么限制?例如预期的更新延迟是多少?它如何随着 delta table 的增长而变化?在生产中依赖它安全吗?
是的,您可以依赖此功能(它确实是 Spark 的)- 许多客户都在生产中使用它。关于其他问题 - 这里有多个方面,取决于因素,例如 table 更新频率等:
- 因为静态 Delta table 没有被缓存,它在每次连接时都是 re-read - 根据集群配置,如果你使用 Delta Caching,它可能不是很糟糕,所以文件不是每次都 re-downloaded,只有新数据才会 re-downloaded。
- 如果您有很多小文件等,读取性能可能会受到影响 - 这取决于您写入该文件的方式 table 以及您是否执行了诸如优化之类的操作。
- 根据 Delta table 的更新频率,您可以缓存它并定期刷新它
但要真正完整地回答它,您需要提供更多特定于您的代码、用例等的信息。
在数据块 there is a cool feature 中,允许使用增量 table 加入流式数据帧。很酷的部分是 delta table 中的变化仍然反映在后续的连接结果中。它工作得很好,但我很想知道它是如何工作的,这里有什么限制?例如预期的更新延迟是多少?它如何随着 delta table 的增长而变化?在生产中依赖它安全吗?
是的,您可以依赖此功能(它确实是 Spark 的)- 许多客户都在生产中使用它。关于其他问题 - 这里有多个方面,取决于因素,例如 table 更新频率等:
- 因为静态 Delta table 没有被缓存,它在每次连接时都是 re-read - 根据集群配置,如果你使用 Delta Caching,它可能不是很糟糕,所以文件不是每次都 re-downloaded,只有新数据才会 re-downloaded。
- 如果您有很多小文件等,读取性能可能会受到影响 - 这取决于您写入该文件的方式 table 以及您是否执行了诸如优化之类的操作。
- 根据 Delta table 的更新频率,您可以缓存它并定期刷新它
但要真正完整地回答它,您需要提供更多特定于您的代码、用例等的信息。