如何从 Spark 中的序列文件中提取一系列行?
How to extract a range of rows from sequence file in Spark?
假设我有一个非常大的序列文件,但我只想在本地处理前 1000 行。我该怎么做?
目前我的代码是这样的
JavaPairRDD<IntWritable,VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class, VectorWritable.class);
你应该做的是 parallelize
个 array
:
JavaPairRDD<IntWritable,VectorWritable> RDDwith1000 = sc.parallelize(seqVectors.take(1000));
参见简单示例 here 及以下:
假设我有一个非常大的序列文件,但我只想在本地处理前 1000 行。我该怎么做?
目前我的代码是这样的
JavaPairRDD<IntWritable,VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class, VectorWritable.class);
你应该做的是 parallelize
个 array
:
JavaPairRDD<IntWritable,VectorWritable> RDDwith1000 = sc.parallelize(seqVectors.take(1000));
参见简单示例 here 及以下: