从 HDFS 读取到 Spark
Reading from HDFS into Spark
我正在尝试将文件从 HDFS 读取到 Spark 中并对其执行一些数据处理。最初,我使用 Sqoop 将文件从 MySQL 数据库传输到 Spark。 SQL 数据库 table 有三列 - movieid、title 和 genres。我想知道我应该如何格式化 sc.textFile 才能正确提取文件。
运行 hdfs dfs -ls,我明白了:
drwxr-xr-x - hduser1 supergroup 0 2017-03-20 23:51 movies
运行 hdfs dfs -ls 电影,我看到了:
-rw-r--r-- 1 hduser1 supergroup 0 2017-03-20 23:51 movies/_SUCCESS
-rw-r--r-- 1 hduser1 supergroup 1290474 2017-03-20 23:51 movies/part-m-0000
我想弄清楚的是以下函数中的内容:
case class Movie(movieid: String, title: String, genres: String)
val movieRdd: RDD[Movie] = sc.textFile(***WHAT GOES HERE***).map(-formatting-)
您可以按以下格式编码:
sc.textFile(hdfs://NamenodeIPAddress:Port/DirectoryLocation)
example: sc.textFile(hdfs://127.0.0.1:8020/user/movies)
请根据您的名称节点 IP 地址和路径更改 IP 地址。
希望对您有所帮助!!!...
我正在尝试将文件从 HDFS 读取到 Spark 中并对其执行一些数据处理。最初,我使用 Sqoop 将文件从 MySQL 数据库传输到 Spark。 SQL 数据库 table 有三列 - movieid、title 和 genres。我想知道我应该如何格式化 sc.textFile 才能正确提取文件。
运行 hdfs dfs -ls,我明白了:
drwxr-xr-x - hduser1 supergroup 0 2017-03-20 23:51 movies
运行 hdfs dfs -ls 电影,我看到了:
-rw-r--r-- 1 hduser1 supergroup 0 2017-03-20 23:51 movies/_SUCCESS
-rw-r--r-- 1 hduser1 supergroup 1290474 2017-03-20 23:51 movies/part-m-0000
我想弄清楚的是以下函数中的内容:
case class Movie(movieid: String, title: String, genres: String)
val movieRdd: RDD[Movie] = sc.textFile(***WHAT GOES HERE***).map(-formatting-)
您可以按以下格式编码:
sc.textFile(hdfs://NamenodeIPAddress:Port/DirectoryLocation)
example: sc.textFile(hdfs://127.0.0.1:8020/user/movies)
请根据您的名称节点 IP 地址和路径更改 IP 地址。
希望对您有所帮助!!!...