出于某种奇怪的原因在 map reduce 程序中获取 NumberFormatException

Question

不确定为什么会出现此错误。我在我的 MBP 上通过 brew 安装了 hadoop 2.7.3。我想我是运行它在单节点

我要问的一切都来自 this hadoop tutorial site。我收到 NumberFormatException 错误，但它说它是 "null".

首先，这是输入文件：

1979 23 23 2 43 24 25 26 26 26 26 25 26 25
1980 26 27 28 28 28 30 31 31 31 30 30 30 29
1981 31 32 32 32 33 34 35 36 36 34 34 34 34
1984 39 38 39 39 39 41 42 43 40 39 38 38 40
1985 38 39 39 39 39 41 41 41 00 40 39 39 45

每个整数之间只有一个space。唯一奇怪的是个位数，但它不是空的。

接下来，这是我在运行程序时收到的错误消息：

snip snip
snip snip
17/03/06 17:21:40 WARN mapred.LocalJobRunner: job_local1731001664_0001
java.lang.Exception: java.lang.NumberFormatException: null
    at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)
Caused by: java.lang.NumberFormatException: null      // complains something is null here
    at java.lang.Integer.parseInt(Integer.java:454)
    at java.lang.Integer.parseInt(Integer.java:527)
    at com.servicenow.bigdata.ProcessUtil$E_EMapper.map(ProcessUtil.java:35)
    at com.servicenow.bigdata.ProcessUtil$E_EMapper.map(ProcessUtil.java:16)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:453)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
    at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:243)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)

snip snip
snip snip

最后，这是来自上面违规 line/function 的片段：

  public void map(LongWritable key, Text value,  // offending line #16 here
  OutputCollector<Text, IntWritable> output,   
  Reporter reporter) throws IOException 
  { 
     String line = value.toString(); 
     String lasttoken = null; 
     StringTokenizer s = new StringTokenizer(line,"\t"); 
     String year = s.nextToken(); 

     while(s.hasMoreTokens())
        {
           lasttoken=s.nextToken();
        } 

     int avgprice = Integer.parseInt(lasttoken);  // offneding #35 line here
     output.collect(new Text(year), new IntWritable(avgprice));

在此先感谢您的帮助。如果这是一个简单的错误，希望我没有在浪费人们的时间。

Answer 1

TutorialsPoint 的代码已过时。它告诉你下载Hadoop 1.2.1？那已经有好几年了……去看看官方的 Hadoop MapReduce 教程吧。
您复制的数据中没有制表符，只有空格。
您可以在 MapReduce 之外测试完全相同的代码。

你可以用这个替换所有字符串内容

if (value == null) return null;
String[] splits = value.toString().split("\s+"); 
String year = splits[0];
String lasttoken = splits[splits.length - 1];

Answer 2

似乎 s.hasMoreTokens() 从一开始就是错误的，因此 lasttoken 仍然是 null，因此在尝试解析它时仍然是 NumberFormatException: null。此外，如果每个数字之间有一个 space ' ' 并且您试图用制表符 '\t' 拆分标记，则不会有任何标记

Answer 3

确保您的文本文件只有 Space 个分隔符。
更改代码如下也有效。

StringTokenizer s = new StringTokenizer(line,"\t");

出于某种奇怪的原因在 map reduce 程序中获取 NumberFormatException

Getting NumberFormatException in map reduce program for some strange reason

java

hadoop

mapreduce