DataFrame Object 没有显示任何数据
DataFrame Object is not showing any data
我正在尝试使用 spark csv lib 在 hdfs 文件上创建数据帧 object,如图 in this tutorial。
但是当我试图获取 DataFrame object 的计数时,它显示为 0
这是我的文件,
employee.csv:
empid,empname
1000,Tom
2000,Jerry
我使用
加载了上面的文件
val empDf = sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("delimiter",",").load("hdfs:///user/.../employee.csv");
当我查询时,empDf object.printSchema() 给出了正确的模式,其中 empid、empname 作为字符串字段,我可以看到分隔符被正确读取。
但是当我尝试使用显示数据帧时,
empDf.show 只给出列 header 而其中没有数据,当我这样做时 empDf.count 给出 0 条记录。
如果我错过了这里非常需要的事情,请纠正我。
确保 spark-csv
版本和构建 Spark 发行版的 Scala 版本相同。
例如,如果您的 Spark 发行版是使用 Scala 2.10(Databricks 预建 Spark 发行版的默认 Scala 版本)构建的,您将需要 spark-csv_2.10
- 版本 spark-csv_2.11
(在上述教程中显示) ) 将不起作用,并且将 return 一个只有列名的空数据框 - 有关类似情况,请参阅 。
我正在尝试使用 spark csv lib 在 hdfs 文件上创建数据帧 object,如图 in this tutorial。
但是当我试图获取 DataFrame object 的计数时,它显示为 0
这是我的文件,
employee.csv:
empid,empname
1000,Tom
2000,Jerry
我使用
加载了上面的文件val empDf = sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("delimiter",",").load("hdfs:///user/.../employee.csv");
当我查询时,empDf object.printSchema() 给出了正确的模式,其中 empid、empname 作为字符串字段,我可以看到分隔符被正确读取。
但是当我尝试使用显示数据帧时, empDf.show 只给出列 header 而其中没有数据,当我这样做时 empDf.count 给出 0 条记录。
如果我错过了这里非常需要的事情,请纠正我。
确保 spark-csv
版本和构建 Spark 发行版的 Scala 版本相同。
例如,如果您的 Spark 发行版是使用 Scala 2.10(Databricks 预建 Spark 发行版的默认 Scala 版本)构建的,您将需要 spark-csv_2.10
- 版本 spark-csv_2.11
(在上述教程中显示) ) 将不起作用,并且将 return 一个只有列名的空数据框 - 有关类似情况,请参阅