Spotfire 和 BigQuery

Spotfire and BigQuery

我对 Spotfire 上的 BigQuery 连接器感到非常困惑。它正在服用！非常！很长时间才能将我的数据集导入内存。

我的配置：AWS windows 实例上的 spotfire (8vCPU - 32Go RAM)。 BigQuery 上的数据集 50Go >1 亿行。

是的 - 我应该在数据库中使用如此大的数据集并将查询推送到 BigQuery 并仅使用 Spotfire 进行显示，但这不是我今天的问题

今天我想了解导入的工作原理以及为什么需要这么长时间。此导入工作在 21 小时前开始，但仍未完成。服务器的资源几乎没有使用（CPU、磁盘、网络）。

测试完成：

我尝试从 Redshift 导入数据，速度更快（22Go 14 分钟）
我检查了导入期间使用的资源：网络速度（Redshift ~ 370Mbs，BQ ~ 8Mbs，持续 30 分钟），CPU（Redshift ~ 25%，BQ < 5%），RAM（Redshift & BQ ~ 27Go ), 磁盘写入 (Redshift 30Mbs, BQ 5MBs)

我真的不明白 Spotfire 在从内存中的 BQ 导入数据集时实际上一直在做什么。似乎没有使用服务器资源，除了时间运行.

之外没有任何状态指示

有没有 Spotfire 专家对正在发生的事情有任何见解？ BigQuery 的连接器实际上不用于内存中分析 - 实际的实施限制因素是什么？

谢谢！

我们遇到了一个已在以下 Spotfire 版本中修复的问题：

TS 10.10.3 LTS HF-014 TS 11.2.0 HF-002

还请对从 BigQuery 提取数据时使用存储 API 的想法进行投票和评论：

谢谢，

托马斯·布隆伯格 TIBCO Spotfire 高级产品经理

@Tarik，你需要安装上面的修补程序。

更多测试后的更新。感谢@Thomas 和@Manoj 非常有帮助的支持。以下是结果：

我将 spotfire 版本更新到 11.2.0 HF002，它解决了使用 BigQuery 将数据存入内存的问题 - 使用（数据 > 添加数据...），尽管数据吞吐量非常低 ~ 13 分钟/Go。网络吞吐量突发 8Mbs。
如 tibco ideas by Thomas, I installed Simba JDBC driver 中所建议，数据吞吐量显着提高至 ~ 50s/Go 使用 (Data > Information Designer ).当然，问题是您需要访问服务器才能安装它。网络吞吐量大约为 200Mbs。我不确定限制因素是什么（Spotfire 配置、Samba 驱动程序或 BigQuery）。
使用 Redshift 连接器连接到具有相同数据的 Redshift 集群并使用（Data > Information Designer）进行连接，我的数据导入吞吐量为~ 30 秒/Go，网络吞吐量为 380Mbs。

所以我的建议是使用最新的 simba 驱动程序和信息设计器，以便在连接到 BigQuery (10-30Go) 中的中型数据集时获得最佳的“内存中”数据导入吞吐量。这导致数据导入吞吐量为 1 分钟/Go。

尚不清楚是什么让 Redshift 连接速度更快，以及是否有更快的方法将数据从 GCP/BigQuery 导入 Spotfire ‍♂️

欢迎大家提出意见或建议！塔里克