Spark Streaming textFileStream 复制
Spark Streaming textFileStream COPYING
我正在尝试监视 HDFS 中的存储库以读取和处理复制到它的文件中的数据(将文件从本地系统复制到 HDFS 我使用 hdfs dfs -put ),有时它会产生问题:Spark Streaming : java.io.FileNotFoundException: 文件不存在: .COPYING 所以我阅读了论坛中的问题和这里的问题 Spark Streaming: java.io.FileNotFoundException: File does not exist: <input_filename>._COPYING_
根据我读到的内容,问题与 Spark 流式传输在文件完成复制到 HDFS 和 Github 之前读取文件有关:
https://github.com/maji2014/spark/blob/b5af1bdc3e35c53564926dcbc5c06217884598bb/streaming/src/main/scala/org/apache/spark/streaming/dstream/FileInputDStream.scala ,他们说他们纠正了问题,但仅针对 FileInputDStream
正如我所见,但我正在使用 textFileStream
当我尝试使用 FileInputDStream
时,IDE 抛出错误,无法从该位置访问符号。
有谁知道如何过滤掉仍在复制的文件,因为我试过了:
var lines = ssc.textFileStream(arg(0)).filter(!_.contains("_COPYING_")
但这没有用,这是预料之中的,因为过滤器应该应用于我猜我无法访问的文件进程的名称
如您所见,我在问这个问题之前做了很多研究,但运气不佳,
有什么帮助吗?
所以我看了看:-put is the wrong method。查看最后的评论:您必须在 shell 脚本中使用 -rename
才能在 HDFS 上进行原子事务。
我正在尝试监视 HDFS 中的存储库以读取和处理复制到它的文件中的数据(将文件从本地系统复制到 HDFS 我使用 hdfs dfs -put ),有时它会产生问题:Spark Streaming : java.io.FileNotFoundException: 文件不存在: .COPYING 所以我阅读了论坛中的问题和这里的问题 Spark Streaming: java.io.FileNotFoundException: File does not exist: <input_filename>._COPYING_
根据我读到的内容,问题与 Spark 流式传输在文件完成复制到 HDFS 和 Github 之前读取文件有关:
https://github.com/maji2014/spark/blob/b5af1bdc3e35c53564926dcbc5c06217884598bb/streaming/src/main/scala/org/apache/spark/streaming/dstream/FileInputDStream.scala ,他们说他们纠正了问题,但仅针对 FileInputDStream
正如我所见,但我正在使用 textFileStream
当我尝试使用 FileInputDStream
时,IDE 抛出错误,无法从该位置访问符号。
有谁知道如何过滤掉仍在复制的文件,因为我试过了:
var lines = ssc.textFileStream(arg(0)).filter(!_.contains("_COPYING_")
但这没有用,这是预料之中的,因为过滤器应该应用于我猜我无法访问的文件进程的名称 如您所见,我在问这个问题之前做了很多研究,但运气不佳, 有什么帮助吗?
所以我看了看:-put is the wrong method。查看最后的评论:您必须在 shell 脚本中使用 -rename
才能在 HDFS 上进行原子事务。