如何将字符串从 csv 转换为 Apache Spark MLlib

How to transform Strings from csv to Apache Spark MLlib

我想从 CSV 加载数据,并在 Java 中为 Apache Spark 上的多类分类或回归 MLlib 算法准备它们。现在我的 CSV 有 3 列:

id,main_user,users
1,bob,"bob,charlie,lee,john"
1,grorge,"george,charlie,smith"
2,harvey,"harvey,marley,bob"
2,smith,"smith,name1,name2"
3,william,"william,charlie,george"
3,.....etc...

如何最好地转换字符串?第 1 列和第 2 列。 我会很感激任何例子。

在这里你可以找到三种语言的例子

https://spark.apache.org/docs/latest/ml-features.html#tf-idf-hashingtf-and-idf

您必须创建特征向量。 "Our feature vectors could then be passed to a learning algorithm."

希望对您有所帮助