从 java 中删除 hdfs 文件夹
Delete hdfs folder from java
在边缘节点上的 java 应用程序 运行 中,我需要删除一个 hdfs 文件夹(如果存在)。我需要在 运行 输出到文件夹中的 mapreduce 作业(带 spark)之前执行此操作。
我发现我可以使用方法
org.apache.hadoop.fs.FileUtil.fullyDelete(new File(url))
但是,我只能让它与本地文件夹一起使用(即 运行 计算机上的文件 url)。我尝试使用类似的东西:
url = "hdfs://hdfshost:port/the/folder/to/delete";
其中 hdfs://hdfshost:port
是 hdfs namenode IPC。我将它用于 mapreduce,所以它是正确的。
但是它什么也没做。
那么,url我应该用什么,或者有其他方法吗?
注意:here是有问题的简单项目。
我是这样做的:
Configuration conf = new Configuration();
conf.set("fs.hdfs.impl",org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
conf.set("fs.file.impl",org.apache.hadoop.fs.LocalFileSystem.class.getName());
FileSystem hdfs = FileSystem.get(URI.create("hdfs://<namenode-hostname>:<port>"), conf);
hdfs.delete("/path/to/your/file", isRecursive);
您的文件路径中不需要 hdfs://hdfshost:port/
这对我有用。
只需在我的 WordCount 程序中添加以下代码即可:
import org.apache.hadoop.fs.*;
...
Configuration conf = new Configuration();
Path output = new Path("/the/folder/to/delete");
FileSystem hdfs = FileSystem.get(URI.create("hdfs://namenode:port"),conf);
// delete existing directory
if (hdfs.exists(output)) {
hdfs.delete(output, true);
}
Job job = Job.getInstance(conf, "word count");
...
您需要显式添加 hdfs://hdfshost:port
以获得分布式文件系统。否则代码将仅适用于本地文件系统。
如果需要删除目录下的所有文件:
1) 检查您的目录中有多少文件。
2) 稍后全部删除
public void delete_archivos_dedirectorio() throws IOException {
//namenode= hdfs://ip + ":" + puerto
Path directorio = new Path(namenode + "//test//"); //nos situamos en la ruta//
FileStatus[] fileStatus = hdfsFileSystem.listStatus(directorio); //listamos los archivos que hay actualmente en ese directorio antes de hacer nada
int archivos_basura = fileStatus.length; //vemos cuandoarchivos hay en el directorio antes de hacer nada, y luego iteramos hasta el nuemro de archivos que haya y llos vamos borrando para luego ir crandolos de nuevo en el writte.
for (int numero = 0; numero <= archivos_basura ; numero++) {
Path archivo = new Path(namenode + "//test//" + numero + ".txt");
try {
if(hdfsFileSystem.exists(archivo)) {
try {
hdfsFileSystem.delete(archivo, true);
} catch (IOException ex) {
System.out.println(ex.getMessage());
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
祝你好运:)
在边缘节点上的 java 应用程序 运行 中,我需要删除一个 hdfs 文件夹(如果存在)。我需要在 运行 输出到文件夹中的 mapreduce 作业(带 spark)之前执行此操作。
我发现我可以使用方法
org.apache.hadoop.fs.FileUtil.fullyDelete(new File(url))
但是,我只能让它与本地文件夹一起使用(即 运行 计算机上的文件 url)。我尝试使用类似的东西:
url = "hdfs://hdfshost:port/the/folder/to/delete";
其中 hdfs://hdfshost:port
是 hdfs namenode IPC。我将它用于 mapreduce,所以它是正确的。
但是它什么也没做。
那么,url我应该用什么,或者有其他方法吗?
注意:here是有问题的简单项目。
我是这样做的:
Configuration conf = new Configuration();
conf.set("fs.hdfs.impl",org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
conf.set("fs.file.impl",org.apache.hadoop.fs.LocalFileSystem.class.getName());
FileSystem hdfs = FileSystem.get(URI.create("hdfs://<namenode-hostname>:<port>"), conf);
hdfs.delete("/path/to/your/file", isRecursive);
您的文件路径中不需要 hdfs://hdfshost:port/
这对我有用。
只需在我的 WordCount 程序中添加以下代码即可:
import org.apache.hadoop.fs.*;
...
Configuration conf = new Configuration();
Path output = new Path("/the/folder/to/delete");
FileSystem hdfs = FileSystem.get(URI.create("hdfs://namenode:port"),conf);
// delete existing directory
if (hdfs.exists(output)) {
hdfs.delete(output, true);
}
Job job = Job.getInstance(conf, "word count");
...
您需要显式添加 hdfs://hdfshost:port
以获得分布式文件系统。否则代码将仅适用于本地文件系统。
如果需要删除目录下的所有文件:
1) 检查您的目录中有多少文件。
2) 稍后全部删除
public void delete_archivos_dedirectorio() throws IOException {
//namenode= hdfs://ip + ":" + puerto
Path directorio = new Path(namenode + "//test//"); //nos situamos en la ruta//
FileStatus[] fileStatus = hdfsFileSystem.listStatus(directorio); //listamos los archivos que hay actualmente en ese directorio antes de hacer nada
int archivos_basura = fileStatus.length; //vemos cuandoarchivos hay en el directorio antes de hacer nada, y luego iteramos hasta el nuemro de archivos que haya y llos vamos borrando para luego ir crandolos de nuevo en el writte.
for (int numero = 0; numero <= archivos_basura ; numero++) {
Path archivo = new Path(namenode + "//test//" + numero + ".txt");
try {
if(hdfsFileSystem.exists(archivo)) {
try {
hdfsFileSystem.delete(archivo, true);
} catch (IOException ex) {
System.out.println(ex.getMessage());
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
祝你好运:)