嵌套（数组）数据的 BigTable 设计

Question

我们正在将数据从 BigQuery 批量加载到 BigTable。 API 通过 BigTable 中的 Cloud Functions 访问数据。 header 数据和详细信息是在当前架构中的两个不同调用中获取的。但是我想将 header 和详细信息都存储在一个列族中。到目前为止，我没有找到任何解释如何在 BigTable 中存储数组的参考资料或示例，所以我想这是不可能的。现在，对于我的情况，能够为 API 层提供服务的最佳替代设计是什么。数据的简化示例，其中 call_replies 是 BigQuery 中的 STRUCT：

[
   {
      "call_id":"123",
      "caller":"Jeff",
      "call_creation_timestamp":"2020-01-01 19:20:35",
      "call_replies":[
         {
            "email":"Bladiebla@gmail.com",
            "message":"Bladiebla"
         },
         {
            "email":"jaryjary@gmail.com",
            "message":"Jaryjary"
         }
      ]
   },
   {
      "call_id":"456",
      "caller":"John",
      "call_creation_timestamp":"2020-01-01 20:20:35",
      "call_replies":[
         
      ]
   }
]

在此先感谢专家的帮助！

Answer 1

这里有几个选项。

版本

Bigtable 数据支持版本，因此您可以在 row/column 交集处有多个单元格。对于单元格回复，您只需编写每个条目并确保您有一个允许多个版本的 garbage collection rule。如果您将电子邮件和消息存储在同一列中，这将非常有用，但如果您将它们分开存储，则可能会有点挑剔，因为您必须确保每对的时间戳匹配。
字节

Bigtable 中的所有内容都以字节形式存储，因此您可以在编写消息时对其进行编码，在读取时对其进行解码。这可能会导致更多的开销，但可以让您按照自己的意愿存储数据。

嵌套（数组）数据的 BigTable 设计

BigTable design for nested (array) data

hbase

google-bigquery

google-cloud-bigtable