Spark Thrift 服务器和 Tableau

Spark Thrift Server and Tableau

我已成功使用 Samba ODBC 将 Tableau 与 Spark Thrift Server 集成。我曾尝试在 初始 SQL 期间使用 cache table 并且到目前为止性能一直很好。我现在正在寻找一种方法来缓存和取消缓存一些经常使用的 tables,当它们通过我们的数据管道更新时。

我面临的挑战是,通过 Tableau 完成的缓存 table 将在 thrift 服务器的整个生命周期内保留在缓存中,但是当我编写数据管道流程并提交 spark 作业时,它将使用不同的火花上下文。 谁能建议我如何通过后端进程连接到节俭服务器上下文。

  1. 有没有办法重新使用来自 spark-submit 或 spark shell 的 thrift 服务?
  2. 在我的数据管道结束时,调用一个简单的 shell 脚本来连接到 thrift 服务并刷新缓存是否是个好主意?

注意:我的后端和 BI 工具都使用同一个集群,因为我在启动 thrift 服务和提交后端作业时使用了同一个 yarn 集群。

谢谢,贾亚德普

您可以尝试使用 beeline 使用相同的 URL 和凭据连接到同一集群上的 Thrift 服务。一旦数据管道完成 运行

UNCACHE TABLE MyTable;
CACHE TABLE MyTable;