列出文件 scala emr hdfs(缺少 csv 文件)

List files scala emr hdfs (csv file missing)

我正在尝试通过以下方法列出 emr hdfs 目录中的所有文件:

val directory = new File(directoryPath)
val fileStatusListIterator: RemoteIterator[LocatedFileStatus] = FileUtils.fs.listFiles(new Path(directoryPath), true)
while (fileStatusListIterator.hasNext) {
  val fileStatus = fileStatusListIterator.next
  if (fileStatus.isFile) {
    log.info(s"Iterator File Path: ${fileStatus.getPath}")
  }
}

我的问题:它列出了除 csv 文件之外的所有内容。

找到原因了。因为我恰好在列表之前下载了这个 csv 文件。这意味着该文件无法按时从迭代器中捕获。因此,我必须使用:

Future.Await(Downloading,Duration.Inf)

所以会强制等到下载完成再继续。