将 Ceph 端点设置为 DNS 在 Hadoop 中不起作用

Question

我正在尝试启用包含 Hadoop (2.7)、Spark(2.3) 和 Ceph(luminous) 的大数据环境。在将 fs.s3a.endpoint 更改为域名之前，一切正常，正如预期的那样。

core-site.xml的关键部分如下：

<property>
    <name>fs.defaultFS</name>
    <value>s3a://tpcds</value>
</property>
<property>
        <name>fs.s3a.endpoint</name>
        <value>http://10.1.2.213:8080</value>
</property>

但是，当我将 fs.s3a.endpoint 更改为如下域名时：

<property>
        <name>fs.s3a.endpoint</name>
        <value>http://gw.gearon.com:8080</value>
</property>

然后我尝试在 Hadoop Yarn 上启动 SparkSQL，抛出如下错误：

AmazonHttpClient:448 - Unable to execute HTTP request: tpcds.gw.gearon.com: Name or service not known
java.net.UnknownHostException: tpcds.gw.gearon.com: Name or service not known
        at java.net.Inet6AddressImpl.lookupAllHostAddr(Native Method)
        at java.net.InetAddress.lookupAllHostAddr(InetAddress.java:929)
        at java.net.InetAddress.getAddressesFromNameService(InetAddress.java:1324)
        at java.net.InetAddress.getAllByName0(InetAddress.java:1277)

gw.gearon.com肯定转发给10.1.2.213。谷歌搜索后，我意识到应该设置一个属性。

<property>
  <name>fs.s3a.path.style.access</name>
  <value>true</value>
  <description>Enable S3 path style access ie disabling the default virtual hosting behaviour.
    Useful for S3A-compliant storage providers as it removes the need to set up DNS for virtual hosting.
  </description>
</property>

将fs.s3a.path.style.access设置为true后，启动Hadoop Map-Reduce时错误消失。但是，对于Spark-SQL on Hadoop Yarn，错误仍然存在。我想可能是Spark覆盖了Hadoop的设置，所以我也追加了spark.hadoop.fs.s3a.path.style.access true到spark-defaults.xml，还是不行。

那么问题来了：我设置的endpoint是http://gw.gearon.com:8080，为什么错误显示我tpcds.gw.gearon.com是未知的？ tpcds 是我的 Ceph 存储桶名称，我将其设置为我的 fs.defaultFS，它在 core-site.xml 中看起来不错。我该如何解决这个问题？

欢迎任何评论，并提前感谢您的帮助。

Answer 1

您应该使用 "amazon naming methods"，如 here and here 所述。

也就是说，将通配符 dns CNAME 指向网关名称：

*.gw.gearon.com CNAME 10.1.2.213

还要确保将该名称正确设置到网关中（文档 here）：

rgw dns name = clover.voxelgroup.net

将 Ceph 端点设置为 DNS 在 Hadoop 中不起作用

Set Ceph endpoint to DNS doesn't work in Hadoop

hadoop

bigdata

ceph

apache-spark