使用 mesos dcos cli 提交 Spark
Spark submit using mesos dcos cli
我正在尝试使用 DCOS cli 在 mesos 上执行 spark 流作业。
我能够胜任这份工作。tar我的程序需要一个配置文件作为 cli 参数传递。如何使用 dcos spark 运行 --submit-args?
实现此目的
我试过 --files http://server/path/to//file 希望它能下载文件,但没有成功。驱动程序 starts 但由于缺少配置文件而失败。
我还尝试将 jar 和配置文件汇总为 tar 并提交。我可以在 Mesos 日志中看到 tar 已被获取并且未 tar。在工作目录中可以看到配置文件和 jar 文件。但是作业因 ClassNotFoundException 而失败。我怀疑 spark-submit 的制作方式有问题tarted.
dcos spark run --submit-args="--supervise --deploy-mode cluster --class package.name.classname http://file-server:8000/Streaming.tar.gz Streaming.conf"
关于如何进行的任何提示?另外,在哪个日志文件中可以看到DCOS使用的底层spark-submit命令?
Streaming.conf
只是一个将传递给您的 driver 的字符串。您的 driver 必须能够看到它。最简单的方法是将它放在一个可访问的位置,指定您希望它通过 spark.mesos.uris
[1] 下载到沙箱。您也可以编写您的应用程序以支持从远程位置读取,并仅在 CLI 上传递该位置。
--files
用于将文件放置在执行程序中,但您正试图将文件传递给 driver,这样将不起作用。
[1] http://spark.apache.org/docs/latest/running-on-mesos.html
迈克尔·古梅尔特
中间层
这是您应该启动以使其工作的命令示例:
dcos spark run --submit-args='--conf spark.mesos.uris=https://s3-us-west-2.amazonaws.com/andrey-so-36323287/pi.conf --class JavaSparkPiConf https://s3-us-west-2.amazonaws.com/andrey-so-36323287/sparkPi_without_config_file.jar /mnt/mesos/sandbox/pi.conf'
在哪里
--conf spark.mesos.uris=...
A comma-separated list of URIs to be downloaded to the sandbox when driver or executor is launched by Mesos. This applies to both coarse-grained and fine-grained mode.
/mnt/mesos/sandbox/pi.conf
A path to the downloaded file which your main class receives as a 0th parameter (see the code snippet below). /mnt/mesos/sandbox/
is a standard path inside a container which is mapped to a corespondent mesos-task sandbox.
public final class JavaSparkPiConf {
public static void main(String[] args) throws Exception {
SparkConf sparkConf = new SparkConf().setAppName("JavaSparkPi");
JavaSparkContext jsc = new JavaSparkContext(sparkConf);
Scanner scanner = new Scanner(new FileInputStream(args[0]));
int slices;
if (scanner.hasNextInt()) {
slices = scanner.nextInt();
} else {
slices = 2;
}
int n = 100000 * slices;
List<Integer> l = new ArrayList<>(n);
for (int i = 0; i < n; i++) {
l.add(i);
}
JavaRDD<Integer> dataSet = jsc.parallelize(l, slices);
int count = dataSet.map(new Function<Integer, Integer>() {
@Override
public Integer call(Integer integer) {
double x = Math.random() * 2 - 1;
double y = Math.random() * 2 - 1;
return (x * x + y * y < 1) ? 1 : 0;
}
}).reduce(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer integer, Integer integer2) {
return integer + integer2;
}
});
System.out.println("Pi is roughly " + 4.0 * count / n);
jsc.stop();
}
}
我正在尝试使用 DCOS cli 在 mesos 上执行 spark 流作业。 我能够胜任这份工作。tar我的程序需要一个配置文件作为 cli 参数传递。如何使用 dcos spark 运行 --submit-args?
实现此目的我试过 --files http://server/path/to//file 希望它能下载文件,但没有成功。驱动程序 starts 但由于缺少配置文件而失败。
我还尝试将 jar 和配置文件汇总为 tar 并提交。我可以在 Mesos 日志中看到 tar 已被获取并且未 tar。在工作目录中可以看到配置文件和 jar 文件。但是作业因 ClassNotFoundException 而失败。我怀疑 spark-submit 的制作方式有问题tarted.
dcos spark run --submit-args="--supervise --deploy-mode cluster --class package.name.classname http://file-server:8000/Streaming.tar.gz Streaming.conf"
关于如何进行的任何提示?另外,在哪个日志文件中可以看到DCOS使用的底层spark-submit命令?
Streaming.conf
只是一个将传递给您的 driver 的字符串。您的 driver 必须能够看到它。最简单的方法是将它放在一个可访问的位置,指定您希望它通过 spark.mesos.uris
[1] 下载到沙箱。您也可以编写您的应用程序以支持从远程位置读取,并仅在 CLI 上传递该位置。
--files
用于将文件放置在执行程序中,但您正试图将文件传递给 driver,这样将不起作用。
[1] http://spark.apache.org/docs/latest/running-on-mesos.html
迈克尔·古梅尔特
中间层
这是您应该启动以使其工作的命令示例:
dcos spark run --submit-args='--conf spark.mesos.uris=https://s3-us-west-2.amazonaws.com/andrey-so-36323287/pi.conf --class JavaSparkPiConf https://s3-us-west-2.amazonaws.com/andrey-so-36323287/sparkPi_without_config_file.jar /mnt/mesos/sandbox/pi.conf'
在哪里
--conf spark.mesos.uris=...
A comma-separated list of URIs to be downloaded to the sandbox when driver or executor is launched by Mesos. This applies to both coarse-grained and fine-grained mode.
/mnt/mesos/sandbox/pi.conf
A path to the downloaded file which your main class receives as a 0th parameter (see the code snippet below)./mnt/mesos/sandbox/
is a standard path inside a container which is mapped to a corespondent mesos-task sandbox.
public final class JavaSparkPiConf {
public static void main(String[] args) throws Exception {
SparkConf sparkConf = new SparkConf().setAppName("JavaSparkPi");
JavaSparkContext jsc = new JavaSparkContext(sparkConf);
Scanner scanner = new Scanner(new FileInputStream(args[0]));
int slices;
if (scanner.hasNextInt()) {
slices = scanner.nextInt();
} else {
slices = 2;
}
int n = 100000 * slices;
List<Integer> l = new ArrayList<>(n);
for (int i = 0; i < n; i++) {
l.add(i);
}
JavaRDD<Integer> dataSet = jsc.parallelize(l, slices);
int count = dataSet.map(new Function<Integer, Integer>() {
@Override
public Integer call(Integer integer) {
double x = Math.random() * 2 - 1;
double y = Math.random() * 2 - 1;
return (x * x + y * y < 1) ? 1 : 0;
}
}).reduce(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer integer, Integer integer2) {
return integer + integer2;
}
});
System.out.println("Pi is roughly " + 4.0 * count / n);
jsc.stop();
}
}