SAP Vora 2.1 是否需要 Hadoop / Spark 集群？并且可以使用 PySpark 吗？

Does SAP Vora 2.1 need a Hadoop / Spark cluster? And can PySpark be used?

根据文档，SAP_Vora_Installation_Admin_Guide_2.0_en.pdf，需要一个 Hadoop / Spark 集群运行ning 和一个 Kubernetis 集群运行ning。

现在我的问题是，为什么需要这个 Hadoop / Spark 集群？因为 SAP Vora 可以从 HDFS、WebHDFS 等读取。

如果你有一个 Spark 作业，你可以运行它在 Spark 集群上，如果它需要来自 HANA / Vora 的数据，它可以访问它吗？还是Vora也使用Spark集群来处理数据？

因为现在看起来 Spark 可以使用 Vora 但 Vora 不能使用 Spark（Vora UI 工具，如 SQL 编辑器等）。因为你可以附加到Vora的Zeppelin只是用于可视化（据我所知，如果我错了请纠正我）。

我的第二个问题是，是否可以在 Hadoop/Spark 集群上使用 PySpark 来与 Vora 而不仅仅是 Scala Spark 交互。

提前致谢。

是的，您的假设是正确的：Spark 可以访问 Vora 2.1，但 Vora 2.1 无法与 Spark 交互，因此不需要 Hadoop/Spark 集群可用。但是，如果您没有 Hadoop，那么您必须有一个替代数据存储来加载数据，例如S3, 日常活动。

是的，可以使用 PySpark 与 Vora 交互。