Spark BigQuery 连接器与 Python BigQuery 库

Spark BigQuery Connector vs Python BigQuery Library

我目前正在使用 pyspark 和 ipython-notebook 开发推荐系统。我想从存储在 BigQuery 中的数据中获取建议。有两个 options:Spark BQ 连接器和 Python BQ 库。

这两个工具的优缺点是什么?

Python BQ 库是从 Python 与 BQ 交互的标准方式,因此它将包含 BigQuery 的完整 API 功能。您提到的 Spark BQ 连接器是 Hadoop Connector - 一个 Java Hadoop 库,它允许您使用抽象的 Hadoop 类 从 BigQuery read/write。这将更类似于您与本机 Hadoop 输入和输出的交互方式。

您可以找到 Hadoop 连接器的示例用法 here