Spotfire 和 BigQuery
Spotfire and BigQuery
我对 Spotfire 上的 BigQuery 连接器感到非常困惑。它正在服用!非常!很长时间才能将我的数据集导入内存。
我的配置:AWS windows 实例上的 spotfire (8vCPU - 32Go RAM)。 BigQuery 上的数据集 50Go >1 亿行。
是的 - 我应该在数据库中使用如此大的数据集并将查询推送到 BigQuery 并仅使用 Spotfire 进行显示,但这不是我今天的问题
今天我想了解导入的工作原理以及为什么需要这么长时间。此导入工作在 21 小时前开始,但仍未完成。服务器的资源几乎没有使用(CPU、磁盘、网络)。
测试完成:
- 我尝试从 Redshift 导入数据,速度更快(22Go 14 分钟)
- 我检查了导入期间使用的资源:网络速度(Redshift ~ 370Mbs,BQ ~ 8Mbs,持续 30 分钟),CPU(Redshift ~ 25%,BQ < 5%),RAM(Redshift & BQ ~ 27Go ), 磁盘写入 (Redshift 30Mbs, BQ 5MBs)
我真的不明白 Spotfire 在从内存中的 BQ 导入数据集时实际上一直在做什么。似乎没有使用服务器资源,除了时间 运行.
之外没有任何状态指示
有没有 Spotfire 专家对正在发生的事情有任何见解? BigQuery 的连接器实际上不用于内存中分析 - 实际的实施限制因素是什么?
谢谢!
我们遇到了一个已在以下 Spotfire 版本中修复的问题:
TS 10.10.3 LTS HF-014
TS 11.2.0 HF-002
还请对从 BigQuery 提取数据时使用存储 API 的想法进行投票和评论:
https://ideas.tibco.com/ideas/TS-I-7890
谢谢,
托马斯·布隆伯格
TIBCO Spotfire 高级产品经理
@Tarik,你需要安装上面的修补程序。
您可以从 link 下载最新的修补程序:https://community.tibco.com/wiki/list-hotfixes-tibco-spotfire-clients-analyst-web-player-consumerbusiness-author-and-automation
更多测试后的更新。感谢@Thomas 和@Manoj 非常有帮助的支持。以下是结果:
- 我将 spotfire 版本更新到 11.2.0 HF002,它解决了使用 BigQuery 将数据存入内存的问题 - 使用(数据 > 添加数据...),尽管数据吞吐量非常低 ~ 13 分钟/Go。网络吞吐量突发 8Mbs。
- 如 tibco ideas by Thomas, I installed Simba JDBC driver 中所建议,数据吞吐量显着提高至 ~ 50s/Go 使用 (Data > Information Designer ).当然,问题是您需要访问服务器才能安装它。网络吞吐量大约为 200Mbs。我不确定限制因素是什么(Spotfire 配置、Samba 驱动程序或 BigQuery)。
- 使用 Redshift 连接器连接到具有相同数据的 Redshift 集群并使用(Data > Information Designer)进行连接,我的数据导入吞吐量为~ 30 秒/Go,网络吞吐量为 380Mbs。
所以我的建议是使用最新的 simba 驱动程序和信息设计器,以便在连接到 BigQuery (10-30Go) 中的中型数据集时获得最佳的“内存中”数据导入吞吐量。这导致数据导入吞吐量为 1 分钟/Go。
尚不清楚是什么让 Redshift 连接速度更快,以及是否有更快的方法将数据从 GCP/BigQuery 导入 Spotfire ♂️
欢迎大家提出意见或建议!
塔里克
我对 Spotfire 上的 BigQuery 连接器感到非常困惑。它正在服用!非常!很长时间才能将我的数据集导入内存。
我的配置:AWS windows 实例上的 spotfire (8vCPU - 32Go RAM)。 BigQuery 上的数据集 50Go >1 亿行。
是的 - 我应该在数据库中使用如此大的数据集并将查询推送到 BigQuery 并仅使用 Spotfire 进行显示,但这不是我今天的问题
今天我想了解导入的工作原理以及为什么需要这么长时间。此导入工作在 21 小时前开始,但仍未完成。服务器的资源几乎没有使用(CPU、磁盘、网络)。
测试完成:
- 我尝试从 Redshift 导入数据,速度更快(22Go 14 分钟)
- 我检查了导入期间使用的资源:网络速度(Redshift ~ 370Mbs,BQ ~ 8Mbs,持续 30 分钟),CPU(Redshift ~ 25%,BQ < 5%),RAM(Redshift & BQ ~ 27Go ), 磁盘写入 (Redshift 30Mbs, BQ 5MBs)
我真的不明白 Spotfire 在从内存中的 BQ 导入数据集时实际上一直在做什么。似乎没有使用服务器资源,除了时间 运行.
之外没有任何状态指示有没有 Spotfire 专家对正在发生的事情有任何见解? BigQuery 的连接器实际上不用于内存中分析 - 实际的实施限制因素是什么?
谢谢!
我们遇到了一个已在以下 Spotfire 版本中修复的问题:
TS 10.10.3 LTS HF-014 TS 11.2.0 HF-002
还请对从 BigQuery 提取数据时使用存储 API 的想法进行投票和评论:
https://ideas.tibco.com/ideas/TS-I-7890
谢谢,
托马斯·布隆伯格 TIBCO Spotfire 高级产品经理
@Tarik,你需要安装上面的修补程序。
您可以从 link 下载最新的修补程序:https://community.tibco.com/wiki/list-hotfixes-tibco-spotfire-clients-analyst-web-player-consumerbusiness-author-and-automation
更多测试后的更新。感谢@Thomas 和@Manoj 非常有帮助的支持。以下是结果:
- 我将 spotfire 版本更新到 11.2.0 HF002,它解决了使用 BigQuery 将数据存入内存的问题 - 使用(数据 > 添加数据...),尽管数据吞吐量非常低 ~ 13 分钟/Go。网络吞吐量突发 8Mbs。
- 如 tibco ideas by Thomas, I installed Simba JDBC driver 中所建议,数据吞吐量显着提高至 ~ 50s/Go 使用 (Data > Information Designer ).当然,问题是您需要访问服务器才能安装它。网络吞吐量大约为 200Mbs。我不确定限制因素是什么(Spotfire 配置、Samba 驱动程序或 BigQuery)。
- 使用 Redshift 连接器连接到具有相同数据的 Redshift 集群并使用(Data > Information Designer)进行连接,我的数据导入吞吐量为~ 30 秒/Go,网络吞吐量为 380Mbs。
所以我的建议是使用最新的 simba 驱动程序和信息设计器,以便在连接到 BigQuery (10-30Go) 中的中型数据集时获得最佳的“内存中”数据导入吞吐量。这导致数据导入吞吐量为 1 分钟/Go。
尚不清楚是什么让 Redshift 连接速度更快,以及是否有更快的方法将数据从 GCP/BigQuery 导入 Spotfire ♂️
欢迎大家提出意见或建议! 塔里克