有多少种类型的 HDFS 集群以及使用 Python 连接到 HDFS 集群的最佳方式是什么

How many types of HDFS Clusters are there and what is the best way to connect to HDFS Cluster using Python

我认为标题几乎概括了我的要求,如果有人愿意,我将不胜感激post有多少类型的 HDFS 集群(Kerberos 等)还有哪个是 最好的库,用于 connect 每种类型的集群 使用 python.

谢谢

Apache Hadoop 项目只发布了一种类型的 HDFS。有多种 Hadoop 兼容文件系统,例如 Amazon S3 或 GlusterFS。

Kerberos 是一种授权系统,而不是一种 Hadoop 文件系统。

如果您想要来自 Python 的强大 Hadoop 通信,Pyspark 将是理想的选择,否则您可以使用其他几个 Python 库与 WebHDFS API 交互,您可以通过简单搜索找到这些库