python 中的 MapReduce:os.environ ["map_input_file"] 在 map.py 中不起作用
MapReduce in python: os.environ ["map_input_file"] dosen't work in map.py
这是我第一次用python学习Hadoop MapReduce。
我写了一个map.py来获取两个文件的文件名,以便学习如何连接两个文件。
这里有两个 CSV 文件:
worksheet1.csv
sno,name
1,name1
2,name2
3,name3
4,name4
worksheet2.csv
sno,courseno,grade
1,1,80
1,2,90
2,1,82
2,2,95
map.py:
#!/bin/bash
# -*- coding: utf-8 -*-
import os
import sys
def mapper():
filepath = os.environ["map_input_file"]
filename = os.path.split(filepath)[-1] #get the names
for line in sys.stdin:
if line.strip()=="":
continue
fields = line[:-1].split("\t")
sno = fields[0] #get student ID
if filename == 'worksheet1':
#get student ID and name, mark 0
name = fields[1]
print '\t'.join((sno,'0',name))
elif filename == 'worksheet2':
#get student ID, course number, grade, mark 1
courseno = fields[1]
grade = fields[2]
print '\t'.join((sno,'1',courseno,grade))
if __name__=='__main__':
mapper()
那我用
$cat worksheet1 worksheet2 |python map.py
测试程序。
报错如下:
Traceback (most recent call last):
File "map.py", line 30, in <module>
mapper()
File "map.py", line 11, in mapper
filepath = os.environ['map_input_file']
File "/usr/lib64/python2.7/UserDict.py", line 23, in __getitem__
raise KeyError(key)
KeyError: 'map_input_file'
请告诉我为什么以及如何修改代码。
非常感谢!
您还没有设置 map_input_file
环境变量。此外,您将数据文件通过管道传输到脚本,以便它们在脚本中作为 sys.stdin
可用,但是用于发现当前正在读取其中哪些文件的代码是完全错误的。我建议只使用 fileinput
模块。
在这种情况下,您无法在本地测试您的程序。
当您运行 Hadoop Streaming 时,os.environ['map_input_file']
将由Hadoop 框架设置,以便您可以获取文件名。但是,当您 运行 在本地时,没有人为您设置。
所以不要在本地机器上测试它,只需 运行 在 Hadoop 上测试它。
顺便说一句,通过检查字段数来区分不同的文件是一种不好的做法,例如 len(line.split(","))
。因为你不会那么幸运,不同的文件总是有不同的 len()
。如果你处理的是别人制作的文件,如果他们将来更改文件的格式(例如,添加更多字段),你会生气的。
这是我第一次用python学习Hadoop MapReduce。
我写了一个map.py来获取两个文件的文件名,以便学习如何连接两个文件。 这里有两个 CSV 文件:
worksheet1.csv
sno,name
1,name1
2,name2
3,name3
4,name4
worksheet2.csv
sno,courseno,grade
1,1,80
1,2,90
2,1,82
2,2,95
map.py:
#!/bin/bash
# -*- coding: utf-8 -*-
import os
import sys
def mapper():
filepath = os.environ["map_input_file"]
filename = os.path.split(filepath)[-1] #get the names
for line in sys.stdin:
if line.strip()=="":
continue
fields = line[:-1].split("\t")
sno = fields[0] #get student ID
if filename == 'worksheet1':
#get student ID and name, mark 0
name = fields[1]
print '\t'.join((sno,'0',name))
elif filename == 'worksheet2':
#get student ID, course number, grade, mark 1
courseno = fields[1]
grade = fields[2]
print '\t'.join((sno,'1',courseno,grade))
if __name__=='__main__':
mapper()
那我用
$cat worksheet1 worksheet2 |python map.py
测试程序。
报错如下:
Traceback (most recent call last):
File "map.py", line 30, in <module>
mapper()
File "map.py", line 11, in mapper
filepath = os.environ['map_input_file']
File "/usr/lib64/python2.7/UserDict.py", line 23, in __getitem__
raise KeyError(key)
KeyError: 'map_input_file'
请告诉我为什么以及如何修改代码。 非常感谢!
您还没有设置 map_input_file
环境变量。此外,您将数据文件通过管道传输到脚本,以便它们在脚本中作为 sys.stdin
可用,但是用于发现当前正在读取其中哪些文件的代码是完全错误的。我建议只使用 fileinput
模块。
在这种情况下,您无法在本地测试您的程序。
当您运行 Hadoop Streaming 时,os.environ['map_input_file']
将由Hadoop 框架设置,以便您可以获取文件名。但是,当您 运行 在本地时,没有人为您设置。
所以不要在本地机器上测试它,只需 运行 在 Hadoop 上测试它。
顺便说一句,通过检查字段数来区分不同的文件是一种不好的做法,例如 len(line.split(","))
。因为你不会那么幸运,不同的文件总是有不同的 len()
。如果你处理的是别人制作的文件,如果他们将来更改文件的格式(例如,添加更多字段),你会生气的。