Scala 如何从 CSV 中的特定列中查找所有唯一值？

Question

我正在使用 Scala 读取 csv 文件。该文件的格式为 3 列，每列由 \t 字符分隔。前两列不重要，第三列包含以逗号分隔的标识符列表，这些标识符存储为字符串。以下是输入 csv 的示例：

0002ba73    US  6o7,6on,6qc,6qj,6nw,6ov,6oj,6oi,15me,6pb,6p9
002f50e4    US  6om,6pb,6p8,15m9,6ok,6ov,6qc,6oo,15me
004b5edc    US  6oj,6nz,6on,6om,6qc,6ql,6p6,15me
005cc990    US  6pb,6qf,15me,6og,6nx,6qc,6om,6ok
005fe1ea    US  15me,6p0,6ql,6ok,6ox,6ol,6o5,6qj
00777555    US  6pb,15me,6nw,6rk,6qc,6ov,6qj,6o0,6oj,6ok,6on,6p6,6nx,15m9
00cbcc7d    US  6oj,6qc,6qg,6pb,6ol,6p6,6ov,15me
010254a6    US  6qc,6pb,6nw,6nx,15me,6o0,6ok,6p8
011b905c    US  6oj,6nw,6ov,15me,6qc,6ow,6ql,6on,6qi,6qe
011fffa6    US  15me,6ok,6oj,6p6,6pb,6on,6qc,6ov,6oo,6nw,6oc

我想读取 csv，删除前两列，并创建一个列表，其中包含在第三列中找到的每个唯一标识符代码的一个实例，因此运行将代码放在以上数据应该 return 结果 List(6on, 6qc, 6qj, 6nw, 6ov, 6oj, 6oi, 15me, 6pb, 6p9, 6p8, 15m9, 6ok, 6oo, 6nz, 6om, 6ql, 6p6, 6qf, 6og, 6nx, 6p0, 6ox, 6ol, 6o5, 6rk, 6o0, 6qg, 6ow, 6qi, 6qe, 6oc)

我有以下代码，其中 return 是一个包含在 csv 文件中任何位置找到的每个不同值的列表：

val in_file = new File("input_file.csv")
val source = scala.io.Source.fromFile(in_file, "utf-8")
val labels = try source.getLines.mkString("\t") finally source.close()
val labelsList: List[String] = labels.split("[,\t]").map(_.trim).toList.distinct

使用上面的输入，我的代码 returns labelsList 的值为 List(0002ba73-e60c-4ffb-9131-c1612b904658, US, 6o7, 6on, 6qc, 6qj, 6nw, 6ov, 6oj, 6oi, 15me, 6pb, 6p9, 002f50e4-48cc-4b14-bb80-0502068b6161, 6om, 6p8, 15m9, 6ok, 6oo, 004b5edc-c0cc-4ffd-bef3-980bd92b92e6, 6nz, 6ql, 6p6, 005cc990-83dc-4e63-a4b6-58f38241e8fd, 6qf, 6og, 6nx, 005fe1ea-b918-48a3-a495-1f8ac12935ba, 6p0, 6ox, 6ol, 6o5, 00777555-83d4-401e-861b-5892f3aa3e1c, 6rk, 6o0, 00cbcc7d-1b48-4c5c-8141-8fc8f62b7b07, 6qg, 010254a6-2ef0-4a24-aa4d-3cc6656a55de, 011b905c-fbf3-441a-8912-a94cc0fe8a1d, 6ow, 6qi, 6qe, 011fffa6-0b9f-4d88-8ced-ce1cc864984f, 6oc)

如何让我的代码正确地运行并忽略 csv 前两列中包含的任何内容？

Answer 1

您可以忽略前两列，然后用逗号分隔第三列。最后 toSet 将删除重复的标识符。

val f = Source.fromFile("input_file.csv")
val lastColumns = f.getLines().map(_.split("\t")(2))
val uniques = lastColumns.flatMap(_.split(",")).toSet
uniques foreach println

Answer 2

这就是你可以做的，我正在做一个示例 DF，你可以用你的替换

val Df = Seq(("7369", "SMITH" , "2010-12-17", "800.00"), ("7499", "ALLEN","2011-02-20", "1600.00")).toDF("empno", "ename","hire_date", "sal")

val reqCols = Seq(2)
val finalDf = Df.select(reqCols map Df.columns map col: _*)
finalDf.show

注意：这是0-based index，所以传2得到第三列。

如果你想要与你想要的不同的值 column.you 可以使用 distinct 和 mkstring

val Df = Seq(("7369", "SMITH" , "2010-12-17", "800.00"), ("7499", "ALLEN","2011-02-20", "1600.00"), ("7499", "ALLEN","2011-02-20", "1600.00")).toDF("empno", "ename","hire_date", "sal")

val reqCols = Seq(2)
val distinctValues = Df.select(reqCols map Df.columns map col: _*).distinct.collect.mkString(",").filterNot("[]".toSet)
println(distinctValues)

日期重复，上面的代码正在删除重复项。

Answer 3

使用 Scala 2.13 资源管理。

util.Using(io.Source.fromFile("input_file.csv")){
  _.getLines()
   .foldLeft(Array.empty[String]){
     _ ++ _.split("\t")(2).split(",")
   }.distinct.toList
}
//res0: scala.util.Try[List[String]] =
// Success(List(6o7, 6on, 6qc, 6qj, 6nw, 6ov, 6oj, 6oi, 15me, 6pb, 6p9, 6om, 6p8, 15m9, 6ok, 6oo, 6nz, 6ql, 6p6, 6qf, 6og, 6nx, 6p0, 6ox, 6ol, 6o5, 6rk, 6o0, 6qg, 6ow, 6qi, 6qe, 6oc))

如果 Array 结果可以接受，则可以删除 .toList。

Answer 4

另一种使用正则表达式的方法

val data = scala.io.Source.fromFile("source.txt").getLines()
data.toList.flatMap {
  line => """\S+\s+\S+\s+(\S+)""".r.findAllMatchIn(line).map( x => x.group(1).split(",").toList)
  }.flatten.distinct

// res0: List[String] = List(6o7, 6on, 6qc, 6qj, 6nw, 6ov, 6oj, 6oi, 15me, 6pb, 6p9, 6om, 6p8, 15m9, 6ok, 6oo, 6nz, 6ql, 6p6, 6qf, 6og, 6nx, 6p0, 6ox, 6ol, 6o5, 6rk, 6o0, 6qg, 6ow, 6qi, 6qe, 6oc)

Scala 如何从 CSV 中的特定列中查找所有唯一值？

Scala How to Find All Unique Values from a Specific Column in a CSV?

csv

string

scala

getline