Hadoop 从映射器写入新文件
Hadoop writing to a new file from mapper
我正在尝试编写一个程序,它需要一个巨大的数据集,然后 运行 使用 mapreduce
对其进行一些查询。我有这样的代码:
public static class MRMapper
extends Mapper<LongWritable, Text, Text, IntWritable>{
String output2="hdfs://master:9000/user/xxxx/indexln.txt";
FileSystem Phdfs =FileSystem.get(new Configuration());
Path fname1=new Path(output2);
BufferedWriter out=new BufferedWriter(new OutputStreamWriter(Phdfs.create(fname1,true)));
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
long max=0;
public void map(LongWritable key, Text value, Context context
) throws IOException, InterruptedException {
String binln = Long.toBinaryString(0x8000000000000000L | key).substring(1);
out2.write(binln+"\n");
out2.flush();
String line = value.toString();
String [] ST = line.split(",");
long val=Math.abs(Long.parseLong(ST[2]));
if (max < val){
max= val;
}
else{
word.set(line);
context.write(word, val);
}
}
}
我想做的是在映射器中构建一个 indexfile
。映射器将用于访问输入文件的特定区域。映射器根据索引读取输入文件的一部分,然后将读取的部分和读取的行数打印到输出。我正在使用一个带有 9 个减速器的映射器。
我的问题是,是否可以 create/write 到一个与 map 函数中的输出文件不同的文件,并且 reducer 可以读取在 mapper 中打开的文件?如果是,我是在正确的道路上还是完全错误的,或者 mapreduce
不是解决这个问题的方法?如果这个问题听起来太菜鸟,我深表歉意,但我实际上是 hadoop
的菜鸟。努力学习。谢谢
您确定您使用的是单个映射器吗?因为 Hadoop 创建的映射器数量非常接近输入拆分的数量 (more details)。
输入分割的概念也很重要:它意味着非常大的数据文件被分割成几个块,每个块分配给一个映射器。因此,除非您完全确定只使用了一个映射器,否则您将无法控制正在处理文件的哪一部分,也无法控制任何类型的全局索引。
话虽这么说,在 MapReduce 中使用单个映射器与根本不使用 MapReduce 是一样的 :) 也许是我的错误,我假设您只有一个文件要分析,是案例?
如果您有多个大数据文件,情况就会发生变化,为每个文件创建一个映射器可能很有意义,但您必须创建自己的 InputSplit
并覆盖 isSplitable
方法总是返回 false
.
我正在尝试编写一个程序,它需要一个巨大的数据集,然后 运行 使用 mapreduce
对其进行一些查询。我有这样的代码:
public static class MRMapper
extends Mapper<LongWritable, Text, Text, IntWritable>{
String output2="hdfs://master:9000/user/xxxx/indexln.txt";
FileSystem Phdfs =FileSystem.get(new Configuration());
Path fname1=new Path(output2);
BufferedWriter out=new BufferedWriter(new OutputStreamWriter(Phdfs.create(fname1,true)));
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
long max=0;
public void map(LongWritable key, Text value, Context context
) throws IOException, InterruptedException {
String binln = Long.toBinaryString(0x8000000000000000L | key).substring(1);
out2.write(binln+"\n");
out2.flush();
String line = value.toString();
String [] ST = line.split(",");
long val=Math.abs(Long.parseLong(ST[2]));
if (max < val){
max= val;
}
else{
word.set(line);
context.write(word, val);
}
}
}
我想做的是在映射器中构建一个 indexfile
。映射器将用于访问输入文件的特定区域。映射器根据索引读取输入文件的一部分,然后将读取的部分和读取的行数打印到输出。我正在使用一个带有 9 个减速器的映射器。
我的问题是,是否可以 create/write 到一个与 map 函数中的输出文件不同的文件,并且 reducer 可以读取在 mapper 中打开的文件?如果是,我是在正确的道路上还是完全错误的,或者
mapreduce
不是解决这个问题的方法?如果这个问题听起来太菜鸟,我深表歉意,但我实际上是hadoop
的菜鸟。努力学习。谢谢
您确定您使用的是单个映射器吗?因为 Hadoop 创建的映射器数量非常接近输入拆分的数量 (more details)。
输入分割的概念也很重要:它意味着非常大的数据文件被分割成几个块,每个块分配给一个映射器。因此,除非您完全确定只使用了一个映射器,否则您将无法控制正在处理文件的哪一部分,也无法控制任何类型的全局索引。
话虽这么说,在 MapReduce 中使用单个映射器与根本不使用 MapReduce 是一样的 :) 也许是我的错误,我假设您只有一个文件要分析,是案例?
如果您有多个大数据文件,情况就会发生变化,为每个文件创建一个映射器可能很有意义,但您必须创建自己的 InputSplit
并覆盖 isSplitable
方法总是返回 false
.