如何将字符串从 csv 转换为 Apache Spark MLlib
How to transform Strings from csv to Apache Spark MLlib
我想从 CSV 加载数据,并在 Java 中为 Apache Spark 上的多类分类或回归 MLlib 算法准备它们。现在我的 CSV 有 3 列:
id,main_user,users
1,bob,"bob,charlie,lee,john"
1,grorge,"george,charlie,smith"
2,harvey,"harvey,marley,bob"
2,smith,"smith,name1,name2"
3,william,"william,charlie,george"
3,.....etc...
如何最好地转换字符串?第 1 列和第 2 列。
我会很感激任何例子。
在这里你可以找到三种语言的例子
https://spark.apache.org/docs/latest/ml-features.html#tf-idf-hashingtf-and-idf
您必须创建特征向量。 "Our feature vectors could then be passed to a learning algorithm."
希望对您有所帮助
我想从 CSV 加载数据,并在 Java 中为 Apache Spark 上的多类分类或回归 MLlib 算法准备它们。现在我的 CSV 有 3 列:
id,main_user,users
1,bob,"bob,charlie,lee,john"
1,grorge,"george,charlie,smith"
2,harvey,"harvey,marley,bob"
2,smith,"smith,name1,name2"
3,william,"william,charlie,george"
3,.....etc...
如何最好地转换字符串?第 1 列和第 2 列。 我会很感激任何例子。
在这里你可以找到三种语言的例子
https://spark.apache.org/docs/latest/ml-features.html#tf-idf-hashingtf-and-idf
您必须创建特征向量。 "Our feature vectors could then be passed to a learning algorithm."
希望对您有所帮助