如何从 Spark 中的序列文件中提取一系列行？

Question

假设我有一个非常大的序列文件，但我只想在本地处理前 1000 行。我该怎么做？

目前我的代码是这样的

JavaPairRDD<IntWritable,VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class, VectorWritable.class);

Answer 1

你应该做的是 parallelize 个 array:

JavaPairRDD<IntWritable,VectorWritable> RDDwith1000 = sc.parallelize(seqVectors.take(1000));

参见简单示例 here 及以下：

How to extract a range of rows from sequence file in Spark?