将 Google 云存储数据加载到 bigtable

Load Google Cloud Storage data into bigtable

是否有将 Google Cloud Storage 数据加载到 bigtable 中的简单方法或示例?

我有很多由 pyspark 生成的 json 文件,我希望将数据加载到 bigtable

但是我找不到一个简单的方法来做到这一点!

我已经尝试了 google-cloud-python 中的 python 代码,它工作正常,但它只是将数据逐行读入 bigtable,这对我来说很奇怪。

如有任何帮助,我们将不胜感激。

Cloud Bigtable 中没有读取数据的简单工具。以下是一些选项:

  1. 使用 Dataflow 导入文件。这需要 java 开发,并学习 Dataflow 编程模型。
  2. 使用 Python(可能与 Pyspark 一起使用)读取那些 json 文件,并使用称为 mutate_rows 的方法写入 Cloud Bigtable,该方法批量写入 Bigtable。

仅供参考,我在 Cloud Bigtable 团队工作。我是 Java 开发人员,所以我选择 #1。我们的团队一直在努力改善我们的 python 体验。扩展团队最近添加了一些可靠性改进,以确保 mutate_rows 对大型作业具有弹性。我们还没有任何与 PySpark 或 Apache Beam's python SDK 集成的好例子,但它们在我们的雷达上。