为 Schema WASB 获取无文件系统。 Hdinsight 地图减少

Question

我是运行 Azure HDInsight 中的一个简单的 map reduce 作业，下面是我们运行:

的命令

java -jar WordCount201.jar wasb://hexhadoopcluster-2019-05-15t07-01-07-193z@hexanikahdinsight.blob.core.windows.net/hexa/CustData.csv wasb://hexhadoopcluster-2019-05-15t07-01-07-193z@hexanikahdinsight.blob.core.windows.net/hexa

出现以下错误：

java.io.IOException: No FileSystem for scheme: wasb

Answer 1

对于 Java 使用 jdk1.8 及以下 POM org.apache.hadoop hadoop-mapreduce-examples2.7.3scope>提供 org.apache.hadoophadoop-mapreduce-client-common2。 7.3提供jdk.toolsjdk.toolsorg.apache.hadoophadoop-common2.7.3提供

Answer 2

WASB 是 HDFS 文件系统的包装器。我不确定您是否可以在普通 java 程序中使用它。您有参考文献/link吗？

您可以尝试获取等效于 custData.csv 的 https file.Below 是我能够使用 WASB 在 HDInsight 集群上提交的 Spark 作业的示例

spark-submit \
--class com.nileshgule.movielens.MovieRatingAnalysis \
--master yarn \
--deploy-mode cluster \
--executor-memory 1g \
--name MoviesCsvReader \
--conf "spark.app.id=MovieRatingAnalysis" \
wasb://hd-spark-cluster-2019@hdsparkclusterstorage.blob.core.windows.net/learning-spark-1.0.jar \
wasb://hd-spark-cluster-2019@hdsparkclusterstorage.blob.core.windows.net/ml-latest/ratings.csv \
wasb://hd-spark-cluster-2019@hdsparkclusterstorage.blob.core.windows.net/ml-latest/movies.csv

下面是使用等效的 https URI 传递相同文件的示例

spark-submit \
--class com.nileshgule.movielens.MovieRatingAnalysis \
--master yarn \
--deploy-mode cluster \
--executor-memory 1g \
--name MoviesCsvReader \
--conf "spark.app.id=MovieRatingAnalysis" \
https://hdsparkclusterstorage.blob.core.windows.net/hd-spark-cluster-2019/learning-spark-1.0.jar \
https://hdsparkclusterstorage.blob.core.windows.net/hd-spark-cluster-2019/ml-latest/ratings.csv \
https://hdsparkclusterstorage.blob.core.windows.net/hd-spark-cluster-2019/ml-latest/movies.csv

Answer 3

对于 hadoop 作业，请运行来自 root 用户的 jar。登录到 HDinsight 运行后，命令 sudo su - 。然后创建一个文件夹并将 jar 放入该文件夹和运行 jar .

为 Schema WASB 获取无文件系统。 Hdinsight 地图减少

Getting No FileSystem for Schema WASB . Hdinsight Map Reduce

reduce

dictionary

hadoop

azure-hdinsight