Hadoop+Spark - 一旦应用程序正常启动一次就会显示错误

Hadoop+Spark - once application will start properly once will display the error

我有一个包含 40 000 行的文件,每行一个单词,彼此。

我启动 Hadoop、master、slaves - 一切正常:

start-dfs.sh;start-yarn.sh;/opt/spark/sbin/start-master.sh;/opt/spark/sbin/start-slaves.sh

我运行示例应用程序,它计算单词:

/opt/spark/bin/spark-submit --class org.apache.spark.examples.JavaWordCount --deploy-mode cluster --master yarn --driver-memory 2g --executor-memory 2g /opt/spark/examples/jars/spark-examples_2.11-2.0.0.jar hdfs://hadoop-master:9000/input/outputData.fcs

我有问题:一旦应用程序将正常启动并显示结果,一旦将显示错误(并且我在重新启动之间没有任何更改):

ERROR shuffle.RetryingBlockFetcher: Exception while beginning fetch of 1 outstanding blocks 
java.io.IOException: Failed to connect to iws2/172.29.77.40:43688

Link to full log with error

我不知道出了什么问题。在我的配置文件下面:

yarn-site.xml

所有从站和主站都已在文件 "master"、"slaves".

中正确设置

错误状态:

Failed to connect to iws2/172.29.77.40:43688

结果是网络问题。确保您的集群配置正确并开始查找相关信息。

希望对您有所帮助。

感谢回复。

来自 /opt/hadoop/hadoop/etc/hadoop/ 的文件(它们在主机和从机上是相同的):

core-site.xml

hdfs-site.xml

mapred-site.xml

我在 Spark 中修改过的一个文件(/opt/spark/conf/;它在主从上是相同的):

spark-env.sh

和主机文件:

/etc/hosts

文件 "master" 和 "slaves" 在所有节点上都是相同的: slaves, master.

不知道哪里出了问题


编辑:

我变容量了-scheduler.xml:

  <property>
     <name>yarn.scheduler.capacity.maximum-am-resource-percent</name>
     <value>1</value>
  </property>

在纱线中-site.xml:

  <property>
     <name>yarn.nodemanager.vmem-pmem-ratio</name>
     <value>2.1</value>
  </property>

现在可以使用了!

第二个选项:我更改了输入文件。

也许对其他人有用。