导入与安装 spark

Importing vs Installing spark

我是 spark 世界的新手,在某种程度上是编码的新手。

这个问题可能看起来太基础了,但请解开我的困惑。

我知道我们必须导入 spark 库来编写 spark 应用程序。我使用 intellij 和 sbt。 编写应用程序后,我还可以 运行 它们并在“运行”上查看输出。

我的问题是,如果我可以将它们作为库导入并且 运行 它们,为什么我应该在我的机器(本地)上单独安装 spark。 还有什么需要将它安装在集群上,因为我们只需提交 jar 文件并且 jvm 已经存在于集群的所有机器中

感谢您的帮助!

我理解你的困惑。

实际上,如果您是 运行 在 scala/java 上安装 spark,实际上您并不需要在您的机器上安装它,您只需将 spark-core 或任何其他依赖项导入您的项目,一旦你在 mainClass 上开始你的 spark 作业,它将在你的机器上创建一个独立的 spark 运行ner 并且 运行 你的工作在 if (local[*]).

在本地计算机上产生火花的原因有很多。

其中之一用于在 pyspark 上进行 运行ning spark 作业,它需要 spark/python/etc 库和 运行ner(本地[] 或远程[]).

另一个原因可能是如果您想 运行 您的工作在本地进行。

在您的本地数据中心创建集群可能更容易,并且可能将您的机器指定为 master,将连接到您的 master 的其他机器指定为 worker。(这个解决方案可能有点天真,但您要求的是基础知识,所以这可能会引发你好奇地阅读更多关于数据处理系统的基础设施设计的信息)