SAP Vora 2.1 是否需要 Hadoop / Spark 集群?并且可以使用 PySpark 吗?

Does SAP Vora 2.1 need a Hadoop / Spark cluster? And can PySpark be used?

根据文档,SAP_Vora_Installation_Admin_Guide_2.0_en.pdf,需要一个 Hadoop / Spark 集群 运行ning 和一个 Kubernetis 集群 运行ning。

现在我的问题是,为什么需要这个 Hadoop / Spark 集群?因为 SAP Vora 可以从 HDFS、WebHDFS 等读取。

如果你有一个 Spark 作业,你可以 运行 它在 Spark 集群上,如果它需要来自 HANA / Vora 的数据,它可以访问它吗?还是Vora也使用Spark集群来处理数据?

因为现在看起来 Spark 可以使用 Vora 但 Vora 不能使用 Spark(Vora UI 工具,如 SQL 编辑器等)。因为你可以附加到Vora的Zeppelin只是用于可视化(据我所知,如果我错了请纠正我)。

我的第二个问题是,是否可以在 Hadoop/Spark 集群上使用 PySpark 来与 Vora 而不仅仅是 Scala Spark 交互。

提前致谢。

是的,您的假设是正确的:Spark 可以访问 Vora 2.1,但 Vora 2.1 无法与 Spark 交互,因此不需要 Hadoop/Spark 集群可用。但是,如果您没有 Hadoop,那么您必须有一个替代数据存储来加载数据,例如S3, 日常活动。

是的,可以使用 PySpark 与 Vora 交互。