python 中的 MapReduce：os.environ ["map_input_file"] 在 map.py 中不起作用

Question

这是我第一次用python学习Hadoop MapReduce。

我写了一个map.py来获取两个文件的文件名，以便学习如何连接两个文件。这里有两个 CSV 文件：

worksheet1.csv

sno,name
1,name1
2,name2
3,name3
4,name4

worksheet2.csv

sno,courseno,grade
1,1,80
1,2,90
2,1,82
2,2,95

map.py:

#!/bin/bash
# -*- coding: utf-8 -*-
import os
import sys

def mapper():

    filepath = os.environ["map_input_file"] 
    filename = os.path.split(filepath)[-1]  #get the names
    for line in sys.stdin:
        if line.strip()=="":
            continue
        fields = line[:-1].split("\t") 
        sno = fields[0]   #get student ID

        if filename == 'worksheet1':
            #get student ID and name, mark 0
            name = fields[1] 
            print '\t'.join((sno,'0',name)) 
        elif filename == 'worksheet2':
            #get student ID, course number, grade, mark 1
            courseno = fields[1]
            grade = fields[2]
            print '\t'.join((sno,'1',courseno,grade)) 


if __name__=='__main__':
    mapper()

那我用

    $cat worksheet1 worksheet2 |python map.py

测试程序。

报错如下：

Traceback (most recent call last):
  File "map.py", line 30, in <module>
    mapper()
  File "map.py", line 11, in mapper
    filepath = os.environ['map_input_file']
  File "/usr/lib64/python2.7/UserDict.py", line 23, in __getitem__
    raise KeyError(key)
KeyError: 'map_input_file'

请告诉我为什么以及如何修改代码。非常感谢！

Answer 1

您还没有设置 map_input_file 环境变量。此外，您将数据文件通过管道传输到脚本，以便它们在脚本中作为 sys.stdin 可用，但是用于发现当前正在读取其中哪些文件的代码是完全错误的。我建议只使用 fileinput 模块。

Answer 2

在这种情况下，您无法在本地测试您的程序。

当您运行 Hadoop Streaming 时，os.environ['map_input_file'] 将由Hadoop 框架设置，以便您可以获取文件名。但是，当您运行在本地时，没有人为您设置。

所以不要在本地机器上测试它，只需运行在 Hadoop 上测试它。

顺便说一句，通过检查字段数来区分不同的文件是一种不好的做法，例如 len(line.split(","))。因为你不会那么幸运，不同的文件总是有不同的 len() 。如果你处理的是别人制作的文件，如果他们将来更改文件的格式（例如，添加更多字段），你会生气的。

python 中的 MapReduce：os.environ ["map_input_file"] 在 map.py 中不起作用

MapReduce in python: os.environ ["map_input_file"] dosen't work in map.py

python

linux

hadoop

mapreduce