如何通过 Java API 在 Google Cloud Platform 上的 HDFS 中创建目录

Question

我正在运行在 Google 云平台上建立一个 Hadoop 集群，使用 Google 云存储作为持久数据的后端。我能够从远程机器和运行 hadoop fs 命令通过 ssh 连接到主节点。无论如何，当我尝试执行以下代码时，出现超时错误。

代码

FileSystem hdfs =FileSystem.get(new URI("hdfs://mymasternodeip:8020"),new Configuration());
Path homeDir=hdfs.getHomeDirectory();
//Print the home directory
System.out.println("Home folder: " +homeDir); 

// Create a directory
Path workingDir=hdfs.getWorkingDirectory();
Path newFolderPath= new Path("/DemoFolder");

newFolderPath=Path.mergePaths(workingDir, newFolderPath);
if(hdfs.exists(newFolderPath))
    {
        hdfs.delete(newFolderPath, true); //Delete existing Directory
    }
//Create new Directory
hdfs.mkdirs(newFolderPath);

执行 hdfs.exists() 命令时出现超时错误。

错误

org.apache.hadoop.net.ConnectTimeoutException：从 gl051-win7/192.xxx.1.xxx 到 111.222.333.444.bc.googleusercontent.com:8020 的调用因套接字超时异常而失败：org.apache.hadoop.net.ConnectTimeoutException：等待通道准备好连接时超时 20000 毫秒。 ch : java.nio.channels.SocketChannel[connection-pending remote=111.222.333.444.bc.googleusercontent.com/111.222.333.444:8020]

您是否知道在 Google 云平台上针对 Hadoop 使用 Java Hadoop API 的任何限制？

谢谢！

Answer 1

看起来您正在运行在您的本地计算机上运行该代码并尝试连接到 Google Compute Engine 虚拟机；默认情况下，GCE 具有严格的防火墙设置，以避免将您的外部 IP 地址暴露给任意入站连接。如果您使用默认值，那么您的 Hadoop 集群应该位于 "default" GCE 网络上。您需要遵循 adding a firewall instructions 以允许端口 8020 上的传入 TCP 连接以及其他 Hadoop 端口上的传入 TCP 连接以及来自本地 IP 地址的传入 TCP 连接才能正常工作。它看起来像这样：

gcloud compute firewall-rules create allow-http \
    --description "Inbound HDFS." \
    --allow tcp:8020 \
    --format json \
    --source-ranges your.ip.address.here/32

请注意，您确实想要避免打开 0.0.0.0/0 源范围，因为 Hadoop 不会对这些传入请求进行身份验证或授权。您需要尽可能将其限制为仅计划拨入的入站 IP 地址。您可能还需要打开几个其他端口，具体取决于您使用连接到 Hadoop 的功能。

更一般的建议是，只要有可能，您应该尝试运行您的代码在 Hadoop 集群本身上；在这种情况下，您将使用主主机名本身作为 HDFS 权限而不是外部 IP：

hdfs://<master hostname>/foo/bar

这样，您可以将端口公开限制为仅 SSH 端口 22，传入流量由 SSH 守护程序正确控制，然后您的代码就不必担心哪些端口是开放的，甚至不必担心根本不处理 IP 地址。

如何通过 Java API 在 Google Cloud Platform 上的 HDFS 中创建目录

How to create a directory in HDFS on Google Cloud Platform via Java API

api

hadoop

google-hadoop