调用 Spark SaveAsTextFile 方法时如何获取生成的文件名
How do i get generated filename when calling the Spark SaveAsTextFile method
我是 Spark、Hadoop 和所有附带的新手。我的全局需求是构建一个实时应用程序来获取推文并将其存储在 HDFS 上,以便基于 HBase 构建报告。
我想在调用 saveAsTextFile RRD 方法时获取生成的文件名,以便将其导入 Hive。
欢迎随时询问更多信息,提前致谢。
saveAsTextFile 将创建一个序列文件目录。因此,如果您给它路径 "hdfs://user/NAME/saveLocation",将创建一个名为 saveLocation 的文件夹,其中包含序列文件。您应该能够通过将目录名称传递给 HBase 将其加载到 HBase 中(顺序文件是 Hadoop 中的标准)。
我确实建议您考虑另存为镶木地板,它们比标准文本文件有用得多。
据我了解,您将推文保存到 hdfs,现在想要这些保存文件的文件名。如果我错了请纠正我
val filenames=sc.textfile("Your hdfs location where you saved your tweets").map(_._1)
这为您提供了一个 rdd 数组到 filenames 中,您可以对其进行操作。我也是 hadoop 的新手,但无论如何...希望对您有所帮助
我是 Spark、Hadoop 和所有附带的新手。我的全局需求是构建一个实时应用程序来获取推文并将其存储在 HDFS 上,以便基于 HBase 构建报告。
我想在调用 saveAsTextFile RRD 方法时获取生成的文件名,以便将其导入 Hive。
欢迎随时询问更多信息,提前致谢。
saveAsTextFile 将创建一个序列文件目录。因此,如果您给它路径 "hdfs://user/NAME/saveLocation",将创建一个名为 saveLocation 的文件夹,其中包含序列文件。您应该能够通过将目录名称传递给 HBase 将其加载到 HBase 中(顺序文件是 Hadoop 中的标准)。
我确实建议您考虑另存为镶木地板,它们比标准文本文件有用得多。
据我了解,您将推文保存到 hdfs,现在想要这些保存文件的文件名。如果我错了请纠正我
val filenames=sc.textfile("Your hdfs location where you saved your tweets").map(_._1)
这为您提供了一个 rdd 数组到 filenames 中,您可以对其进行操作。我也是 hadoop 的新手,但无论如何...希望对您有所帮助