如何从 Spark 中的序列文件中提取一系列行?

How to extract a range of rows from sequence file in Spark?

假设我有一个非常大的序列文件,但我只想在本地处理前 1000 行。我该怎么做?

目前我的代码是这样的

JavaPairRDD<IntWritable,VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class, VectorWritable.class);

你应该做的是 parallelizearray:

JavaPairRDD<IntWritable,VectorWritable> RDDwith1000 = sc.parallelize(seqVectors.take(1000));

参见简单示例 here 及以下: