Spark 将逗号分隔的行数组拆分为第一个值和其余值

Question

我有一个数据集：

val raw_data = sc.parallelize(Array(
    "Batch1, i, 10, j, 20",
    "Batch2, i, 20, k, 30, m,50",
    "Batch3, i, 30, n, 20, j, 30"
))

我想在进一步处理数据之前将第一个条目或每一行拆分到它的列中。我试过了：

raw_data.map(x => x.split(",")).map(x=>(x(0), x))

但后来我得到：

"Batch1", "Batch1, i, 10, j, 20",
"Batch2", "Batch2, i, 20, k, 30, m,50",
"Batch3", "Batch3, i, 30, n, 20, j, 30"

当我在 python 工作时，我可以像这样进行索引：

x(1:)

到 select 第一个值之后的所有内容。 scala 中有类似的东西吗？

即

raw_data.map(x => x.split(",")).map(x=>(x(0), x(1:)))

Answer 1

您可以使用 head 和 tail:

raw_data.map(x => x.split(", ")).map(x=>(x.head, x.tail))

此外，如果您不想在结果中出现不必要的空格，您可能希望在 ", " 而不是 "," 上拆分。

Spark split comma separated row array into first value and the rest