SystemML 从 HDFS 加载文件?
SystemML load file from HDFS?
如何在 systemML DSL 中从 HDFS 加载 csv 文件?
我试过一些像:
X = read("hdfs://ip-XXX-XXX-XXX-XXX:9000/SystemML/data/NN_X_100_10.csv");
并且我检查了文件实际上位于这个HDFS位置。
当我 运行 dsl 时:
$SPARK_HOME/bin/spark-submit ~/Nearest_Neighbour_Search/SystemML/systemml-0.14.0-incubating.jar -f ~/Nearest_Neighbour_Search/SystemML/Task03_NN_SystemML_1000_hdfs.dml
它抱怨说:
ERROR:/home/ubuntu/Nearest_Neighbour_Search/SystemML/Task03_NN_SystemML_1000_hdfs.dml -- line 1, column 0 -- Read input file does not exist on FS (local mode): hdfs://ip-172-30-4-168:9000/SystemML/data/NN_X_1000000_1000.csv
at org.apache.sysml.api.DMLScript.executeScript(DMLScript.java:367)
at org.apache.sysml.api.DMLScript.main(DMLScript.java:214)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:738)
at org.apache.spark.deploy.SparkSubmit$.doRunMain(SparkSubmit.scala:187)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: org.apache.sysml.parser.LanguageException: Invalid Parameters : ERROR: /home/ubuntu/Nearest_Neighbour_Search/SystemML/Task03_NN_SystemML_1000_hdfs.dml -- line 1, column 0 -- Read input file does not exist on FS (local mode): hdfs://ip-172-30-4-168:9000/SystemML/data/NN_X_1000000_1000.csv
at org.apache.sysml.parser.Expression.raiseValidateError(Expression.java:549)
at org.apache.sysml.parser.DataExpression.validateExpression(DataExpression.java:641)
at org.apache.sysml.parser.StatementBlock.validate(StatementBlock.java:592)
at org.apache.sysml.parser.DMLTranslator.validateParseTree(DMLTranslator.java:143)
at org.apache.sysml.api.DMLScript.execute(DMLScript.java:591)
at org.apache.sysml.api.DMLScript.executeScript(DMLScript.java:353)
... 10 more
我认为问题与本地模式有关,但我不知道如何设置以支持 systemML 的 HDFS。
非常感谢任何建议!
谢谢!
你是对的,它与本地模式有关,更具体地说是默认文件系统实现(即 fs.defaultFS in core-site.xml)。 SystemML 0.14(和之前的版本,请参阅 https://issues.apache.org/jira/browse/SYSTEMML-1664)中存在一个错误,导致所有本地读取都使用配置的默认 FS 实现,而与指定的文件方案无关。 hadoop jar 包含使用本地模式和本地文件系统实现的默认配置。
这里有两个选择:
- 升级:由于此错误已在 SystemML master(以及任何即将发布的版本)中得到修复,您可以简单地从头开始构建或使用现有的快照工件 (https://repository.apache.org/content/groups/snapshots/org/apache/systemml/systemml/1.0.0-SNAPSHOT/systemml-1.0.0-20170818.213422-9.jar)。
- 解决方法:作为解决方法,您可以将 csv 文件放入本地文件系统,并在读取语句中使用相对或绝对文件路径。
如何在 systemML DSL 中从 HDFS 加载 csv 文件?
我试过一些像:
X = read("hdfs://ip-XXX-XXX-XXX-XXX:9000/SystemML/data/NN_X_100_10.csv");
并且我检查了文件实际上位于这个HDFS位置。
当我 运行 dsl 时:
$SPARK_HOME/bin/spark-submit ~/Nearest_Neighbour_Search/SystemML/systemml-0.14.0-incubating.jar -f ~/Nearest_Neighbour_Search/SystemML/Task03_NN_SystemML_1000_hdfs.dml
它抱怨说:
ERROR:/home/ubuntu/Nearest_Neighbour_Search/SystemML/Task03_NN_SystemML_1000_hdfs.dml -- line 1, column 0 -- Read input file does not exist on FS (local mode): hdfs://ip-172-30-4-168:9000/SystemML/data/NN_X_1000000_1000.csv
at org.apache.sysml.api.DMLScript.executeScript(DMLScript.java:367)
at org.apache.sysml.api.DMLScript.main(DMLScript.java:214)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:738)
at org.apache.spark.deploy.SparkSubmit$.doRunMain(SparkSubmit.scala:187)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: org.apache.sysml.parser.LanguageException: Invalid Parameters : ERROR: /home/ubuntu/Nearest_Neighbour_Search/SystemML/Task03_NN_SystemML_1000_hdfs.dml -- line 1, column 0 -- Read input file does not exist on FS (local mode): hdfs://ip-172-30-4-168:9000/SystemML/data/NN_X_1000000_1000.csv
at org.apache.sysml.parser.Expression.raiseValidateError(Expression.java:549)
at org.apache.sysml.parser.DataExpression.validateExpression(DataExpression.java:641)
at org.apache.sysml.parser.StatementBlock.validate(StatementBlock.java:592)
at org.apache.sysml.parser.DMLTranslator.validateParseTree(DMLTranslator.java:143)
at org.apache.sysml.api.DMLScript.execute(DMLScript.java:591)
at org.apache.sysml.api.DMLScript.executeScript(DMLScript.java:353)
... 10 more
我认为问题与本地模式有关,但我不知道如何设置以支持 systemML 的 HDFS。
非常感谢任何建议!
谢谢!
你是对的,它与本地模式有关,更具体地说是默认文件系统实现(即 fs.defaultFS in core-site.xml)。 SystemML 0.14(和之前的版本,请参阅 https://issues.apache.org/jira/browse/SYSTEMML-1664)中存在一个错误,导致所有本地读取都使用配置的默认 FS 实现,而与指定的文件方案无关。 hadoop jar 包含使用本地模式和本地文件系统实现的默认配置。
这里有两个选择:
- 升级:由于此错误已在 SystemML master(以及任何即将发布的版本)中得到修复,您可以简单地从头开始构建或使用现有的快照工件 (https://repository.apache.org/content/groups/snapshots/org/apache/systemml/systemml/1.0.0-SNAPSHOT/systemml-1.0.0-20170818.213422-9.jar)。
- 解决方法:作为解决方法,您可以将 csv 文件放入本地文件系统,并在读取语句中使用相对或绝对文件路径。