HBase 到 Delta 表
HBase to Delta Tables
我们正在将 Hadoop 工作负载迁移到 Azure Databricks。在现有的 Hadoop 生态系统中,我们有一些包含一些数据(不是很大)的 HBase 表。由于 Azure Databricks 不支持 Hbase,我们计划是否可以用 Delta 表替换 HBase 表。
这在技术上是否可行,如果是,我们在迁移过程中或在目标系统中是否有任何挑战或问题。
一切都与访问模式有关。 HBase 是 OLTP 系统,您通常在其中操作单个记录 (read/insert/update/delete) 并期望亚秒级(或毫秒级)响应时间。另一方面,Delta Lake 是专为高效处理多条记录而设计的 OLAP 系统,但是当您读取单个记录时,它 可能会 变慢,尤其是当您更新或删除它们时。
如果您的应用程序需要亚秒级查询,尤其是更新,那么设置测试以检查 Delta Lake 是否是正确的选择是有意义的 - 您可能需要查看 Databricks SQL为快速数据访问做了很多优化。
如果它不能满足你的要求,那么你可以看看 Azure 生态系统中的其他产品,例如专为 OLTP 式数据处理而设计的 Azure Redis 或 Azure CosmosDB。
我们正在将 Hadoop 工作负载迁移到 Azure Databricks。在现有的 Hadoop 生态系统中,我们有一些包含一些数据(不是很大)的 HBase 表。由于 Azure Databricks 不支持 Hbase,我们计划是否可以用 Delta 表替换 HBase 表。 这在技术上是否可行,如果是,我们在迁移过程中或在目标系统中是否有任何挑战或问题。
一切都与访问模式有关。 HBase 是 OLTP 系统,您通常在其中操作单个记录 (read/insert/update/delete) 并期望亚秒级(或毫秒级)响应时间。另一方面,Delta Lake 是专为高效处理多条记录而设计的 OLAP 系统,但是当您读取单个记录时,它 可能会 变慢,尤其是当您更新或删除它们时。
如果您的应用程序需要亚秒级查询,尤其是更新,那么设置测试以检查 Delta Lake 是否是正确的选择是有意义的 - 您可能需要查看 Databricks SQL为快速数据访问做了很多优化。
如果它不能满足你的要求,那么你可以看看 Azure 生态系统中的其他产品,例如专为 OLTP 式数据处理而设计的 Azure Redis 或 Azure CosmosDB。