Spotfire 和 BigQuery

Spotfire and BigQuery

我对 Spotfire 上的 BigQuery 连接器感到非常困惑。它正在服用!非常!很长时间才能将我的数据集导入内存。

我的配置:AWS windows 实例上的 spotfire (8vCPU - 32Go RAM)。 BigQuery 上的数据集 50Go >1 亿行。

是的 - 我应该在数据库中使用如此大的数据集并将查询推送到 BigQuery 并仅使用 Spotfire 进行显示,但这不是我今天的问题

今天我想了解导入的工作原理以及为什么需要这么长时间。此导入工作在 21 小时前开始,但仍未完成。服务器的资源几乎没有使用(CPU、磁盘、网络)。

测试完成:

我真的不明白 Spotfire 在从内存中的 BQ 导入数据集时实际上一直在做什么。似乎没有使用服务器资源,除了时间 运行.

之外没有任何状态指示

有没有 Spotfire 专家对正在发生的事情有任何见解? BigQuery 的连接器实际上不用于内存中分析 - 实际的实施限制因素是什么?

谢谢!

我们遇到了一个已在以下 Spotfire 版本中修复的问题:

TS 10.10.3 LTS HF-014 TS 11.2.0 HF-002

还请对从 BigQuery 提取数据时使用存储 API 的想法进行投票和评论:

https://ideas.tibco.com/ideas/TS-I-7890

谢谢,

托马斯·布隆伯格 TIBCO Spotfire 高级产品经理

@Tarik,你需要安装上面的修补程序。

您可以从 link 下载最新的修补程序:https://community.tibco.com/wiki/list-hotfixes-tibco-spotfire-clients-analyst-web-player-consumerbusiness-author-and-automation

更多测试后的更新。感谢@Thomas 和@Manoj 非常有帮助的支持。以下是结果:

  1. 我将 spotfire 版本更新到 11.2.0 HF002,它解决了使用 BigQuery 将数据存入内存的问题 - 使用(数据 > 添加数据...),尽管数据吞吐量非常低 ~ 13 分钟/Go。网络吞吐量突发 8Mbs。
  2. tibco ideas by Thomas, I installed Simba JDBC driver 中所建议,数据吞吐量显着提高至 ~ 50s/Go 使用 (Data > Information Designer ).当然,问题是您需要访问服务器才能安装它。网络吞吐量大约为 200Mbs。我不确定限制因素是什么(Spotfire 配置、Samba 驱动程序或 BigQuery)。
  3. 使用 Redshift 连接器连接到具有相同数据的 Redshift 集群并使用(Data > Information Designer)进行连接,我的数据导入吞吐量为~ 30 秒/Go,网络吞吐量为 380Mbs。

所以我的建议是使用最新的 simba 驱动程序和信息设计器,以便在连接到 BigQuery (10-30Go) 中的中型数据集时获得最佳的“内存中”数据导入吞吐量。这导致数据导入吞吐量为 1 分钟/Go。

尚不清楚是什么让 Redshift 连接速度更快,以及是否有更快的方法将数据从 GCP/BigQuery 导入 Spotfire ‍♂️

欢迎大家提出意见或建议! 塔里克