在与 Cassandra 相同的节点上启用 Spark

Question

我正在尝试测试 Spark，这样我就可以总结我在 Cassandra 中的一些数据。我已经阅读了所有 DataStax 教程，它们对于如何实际启用 spark 非常模糊。我能找到的唯一迹象是，当您在安装期间 select "Analytics" 节点时，它会自动启用。但是，我有一个现有的 Cassandra 节点，我不想使用不同的机器进行测试，因为我只是在我的笔记本电脑上评估所有内容。

是否可以只在同一节点上启用 Spark 并处理任何性能影响？如果是这样，我该如何启用它以便对其进行测试？

我看到了 Spark 的文件夹（虽然我不确定所有文件都存在）但是当我检查它是否设置为 Spark master 时，它说没有启用任何 spark 节点。

dsetool sparkmaster

我正在使用 Linux Ubuntu Mint。

我只是在寻找一种快速而肮脏的方法来对我的数据进行平均等等，而 Spark 似乎是可行的方法，因为它包含大量数据，但我想避免必须支付托管多台机器的费用（至少目前在测试时）。

Answer 1

是的，即使不是在所有节点上，Spark 也能够与集群交互。

包安装

Edit the /etc/default/dse file, and then edit the appropriate line 
to this file, depending on the type of node you want:
...

Spark nodes:
SPARK_ENABLED=1
HADOOP_ENABLED=0
SOLR_ENABLED=0

然后重启DSE服务

http://docs.datastax.com/en/datastax_enterprise/4.5/datastax_enterprise/reference/refDseServ.html

Tar 安装

停止节点上的 DSE 并使用以下命令重新启动它

From the install directory:
...
Spark only node: $ bin/dse cassandra -k - Starts Spark trackers on a cluster of Analytics nodes.

http://docs.datastax.com/en/datastax_enterprise/4.5/datastax_enterprise/reference/refDseStandalone.html

Answer 2

通过更改 SPARK_ENABLED=1 启用 spark 使用命令：sudo nano /usr/share/dse/resources/dse/conf/dse.default

在与 Cassandra 相同的节点上启用 Spark

Enable Spark on Same Node As Cassandra

cassandra

datastax-enterprise

datastax

apache-spark

包安装

Tar 安装