用 Tachyon 测试 Spark
Test Spark with Tachyon
我已经按照说明安装了Tachyon和Spark:
http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html
然而,作为新手,我不知道如何将文件 "X" 放入 Tachyon 文件系统,正如他们所说:
$ ./spark-shell
$ val s = sc.textFile("tachyon-ft://stanbyHost:19998/X")
$ s.count()
$ s.saveAsTextFile("tachyon-ft://activeHost:19998/Y")
我所做的是指向一个现有文件(我通过管理UI找到的):
scala> val s = sc.textFile("tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH")
s: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21
当我 运行 计数时,出现以下错误:
scala> s.count()
java.lang.NullPointerException: connectionString cannot be null
我假设我的路径是错误的。那么两个问题:
如何将文件复制到 Tachyon 中?
FS的正确路径是什么?
抱歉,非常非常新手!!
更新 1
我不确定 tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH
是否是正确的路径。我无法通过浏览器或 wget
获取它
这是我在文件系统浏览器中看到的
我发现了问题。我没有这样做
sc.hadoopConfiguration.set("fs.tachyon.impl", "tachyon.hadoop.TFS")
完成这个练习后http://ampcamp.berkeley.edu/5/exercises/tachyon.html#run-spark-on-tachyon,我发现正确的路径是这样的:
val file = sc.textFile("tachyon://localhost:19998/LICENSE")
所以我的设置毕竟没问题。这里的文档 http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html 让我很困惑。
我已经按照说明安装了Tachyon和Spark:
http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html
然而,作为新手,我不知道如何将文件 "X" 放入 Tachyon 文件系统,正如他们所说:
$ ./spark-shell
$ val s = sc.textFile("tachyon-ft://stanbyHost:19998/X")
$ s.count()
$ s.saveAsTextFile("tachyon-ft://activeHost:19998/Y")
我所做的是指向一个现有文件(我通过管理UI找到的):
scala> val s = sc.textFile("tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH")
s: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21
当我 运行 计数时,出现以下错误:
scala> s.count()
java.lang.NullPointerException: connectionString cannot be null
我假设我的路径是错误的。那么两个问题:
如何将文件复制到 Tachyon 中?
FS的正确路径是什么?
抱歉,非常非常新手!!
更新 1
我不确定 tachyon-ft://localhost:19998/root/default_tests_files/BasicFile_THROUGH
是否是正确的路径。我无法通过浏览器或 wget
这是我在文件系统浏览器中看到的
我发现了问题。我没有这样做
sc.hadoopConfiguration.set("fs.tachyon.impl", "tachyon.hadoop.TFS")
完成这个练习后http://ampcamp.berkeley.edu/5/exercises/tachyon.html#run-spark-on-tachyon,我发现正确的路径是这样的:
val file = sc.textFile("tachyon://localhost:19998/LICENSE")
所以我的设置毕竟没问题。这里的文档 http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html 让我很困惑。