用于 Spark 2 的 hbase-spark

hbase-spark for Spark 2

我想使用 ScalaSpark 2hbase 进行全面扫描。

我没有固定的目录定义,因此 SHC 之类的库不是一个选项。

我的逻辑选择是使用 hbase-spark,它在 Spark 1.6 中运行良好

除了在以前的版本中关于这个库的文档很差之外,我惊讶的是在检查最后的 HBase 版本时,例如 tag 2.0hbase-spark 不见了!但还在master.

所以我的问题是:

谢谢!

似乎 hbase-spark 模块已从 v2.0 版本的 hbase 项目中删除

https://issues.apache.org/jira/browse/HBASE-18817

@bp2010 已经回答了部分问题

关于 HBase Spark,请参见下文。它适用于 spark 2.

有些选项不需要客户端代码提供固定目录:

  1. HBase 火花 带有示例的源代码在这里:https://github.com/apache/hbase-connectors/tree/master/spark/hbase-spark 在这里你可以看到关于存储库的解释: https://github.com/apache/hbase-connectors/tree/master/spark/hbase-spark

  2. Apache Phoenix Spark 连接器 https://phoenix.apache.org/phoenix_spark.html

我不确定它是否对您有帮助,因为 table 必须映射到 Phoenix table。如果你有 Phoenix,并且你的问题是从代码编写目录,但你可以在 HBase Table 中标准化类型,对于完整扫描,这可能是可行的方法。否则,选择选项 1。