Google 云上 dataproc gui 版本的 Hadoop 作业错误

Hadoop job error in dataproc gui version on Google cloud

我正在尝试使用 org.apache.hadoop.examples.WordCount 创建 wordcount 作业,但它显示错误:

我附上了我的作业配置的图片,还有我的存储桶中的文件在哪里(我使用的是存储桶而不是 hdfs)

使用的作业配置:

文件存储在存储桶中:

hadoop-mapreduce-examples.jar的URI:

我在使用上面的配置时得到的错误: Job failed with message [Exception in thread "main" java.lang.reflect.InvocationTargetException]. Additional details can be found at: https://console.cloud.google.com/dataproc/jobs/job-58ef7440?project=hadoop-304309&region=us-central1 gcloud dataproc jobs wait 'job-58ef7440' --region 'us-central1' --project 'hadoop-304309' https://console.cloud.google.com/storage/browser/wordbucket01/google-cloud-dataproc-metainfo/7e251bd2-bd3f-4915-aea3-fba5789e6ee3/jobs/job-58ef7440/ gs://wordbucket01/google-cloud-dataproc-metainfo/7e251bd2-bd3f-4915-aea3-fba5789e6ee3/jobs/job-58ef7440/driveroutput

作业输出: 驱动程序输出文件:

问题是默认情况下 Hadoop 不会写入现有路径,除非特别要求“覆盖”模式。您有两个选择:

  • 删除运行示例前的输出路径
  • 每个 运行
  • 使用另一个输出路径

通常,可以在 Google 云控制台中找到作业的输出 - 在 Dataproc 下查找“作业”页面,或在集群页面下查找“作业”选项卡。此外,如此处所示,输出保存到 GCS,您可以随时从那里检索它。