如何使用 Datastax spark 最好地管理我的所有节点 CPU、内存和存储?

How to best manage all my nodes CPU, memory and storage with Datastax spark?

我现在有一个由 4 个 spark 节点和 1 个 solr 节点组成的集群,并使用 cassandra 作为我的数据库。我想中期增加到 20 个节点,长期增加到 100 个节点。但是 Datastax 似乎不支持 Mesos 或 Yarn。我如何最好地管理所有这些节点 CPU、内存和存储? Mesos 甚至需要 20 或 100 个节点吗?到目前为止,我找不到任何使用 datastax 的例子。我通常没有需要完成的工作,但我是 运行 连续的数据流。这就是为什么我什至考虑删除 Datastax,因为在我看来,如果没有 YARN 或 Mesos,我无法有效地管理这么多节点,但也许有我没有想到的更好的解决方案?我也在使用 python 所以显然 Yarn 是我唯一的选择。

如果您有任何建议或最佳实践示例,请告诉我。

谢谢!

如果你想 运行 DSE 具有受支持的 Hadoop/Yarn 环境,你需要使用 BYOH,阅读它 HERE 在 BYOH 中你可以 运行 内部DSE 中的 Hadoop 平台,或者您可以 运行 带有 YARN 和任何其他可用的 Cloudera 或 HDP 平台。