HDFS 中存储了什么以及为什么 Titan 执行查询时 map-reduce 计算速度如此之快?
What is stored in HDFS and why map-reduce compute so fast when Titan execute queries ?
我现在正在学习 Titan。我在远程模式下使用 Titan 和 HBase。
现在有三个问题让我很困惑。我在下面描述了它们:
在TinkerPop3 Documentation中说"The results of any OLAP operation are stored in HDFS accessible via hdfs."但是现在我用Titan做OLTP,这种情况下HDFS里存的是什么?
当我们使用Titan连接HBase成功时(通过Java IDE),我们可以看到table在HBase shell中创建并扫描内容。 table中的content 'column'是什么意思?它们代表的是graph中的顶点id吗?
当我测试 Titan 的性能时,我观察到查询速度比普通的 map-reduce 作业快。为什么泰坦能做到呢?在 Titan-Documentation 中,他们说 Titan engine "Titan-Hadoop" using parallel map-reduce model.Can 我有更详细的介绍吗?
Titan architecture diagram 有助于显示 OLTP 和 OLAP 用法之间的区别。见右侧架构图:TinkerPop API - Gremlin。 OLTP 是最常见的 Titan 用法,无论您使用哪种后端存储 select(Cassandra、HBase、BerkeleyDB)。当您使用 Titan-HBase 执行 OLTP 查询时,HDFS 中不会存储任何内容。事实上,使用 Titan-HBase 的 OLTP 根本不需要 HDFS/Hadoop。
在 HBase 中扫描 Titan table 的内容时,您会发现图形的序列化表示。 Titan 在 keys/columns/values 上使用数据压缩技术,因此您会发现数据不是人类可读的。您可以在 Titan docs.
中阅读有关存储布局细节的更多信息
查看 #1 的答案,您可能遇到过 运行 OLTP 查询。 Hadoop 风格的 OLAP 图形处理是通过图形计算机完成的。它使用 TitanHBaseInputFormat to read data in from the backend storage, then uses a TinkerPop Graph Computer (Spark or Giraph) to run the OLAP job. See the left side of the architecture diagram above: GremlinGraphComputer. There is also some documentation of this in the Titan docs.
我现在正在学习 Titan。我在远程模式下使用 Titan 和 HBase。
现在有三个问题让我很困惑。我在下面描述了它们:
在TinkerPop3 Documentation中说"The results of any OLAP operation are stored in HDFS accessible via hdfs."但是现在我用Titan做OLTP,这种情况下HDFS里存的是什么?
当我们使用Titan连接HBase成功时(通过Java IDE),我们可以看到table在HBase shell中创建并扫描内容。 table中的content 'column'是什么意思?它们代表的是graph中的顶点id吗?
当我测试 Titan 的性能时,我观察到查询速度比普通的 map-reduce 作业快。为什么泰坦能做到呢?在 Titan-Documentation 中,他们说 Titan engine "Titan-Hadoop" using parallel map-reduce model.Can 我有更详细的介绍吗?
Titan architecture diagram 有助于显示 OLTP 和 OLAP 用法之间的区别。见右侧架构图:TinkerPop API - Gremlin。 OLTP 是最常见的 Titan 用法,无论您使用哪种后端存储 select(Cassandra、HBase、BerkeleyDB)。当您使用 Titan-HBase 执行 OLTP 查询时,HDFS 中不会存储任何内容。事实上,使用 Titan-HBase 的 OLTP 根本不需要 HDFS/Hadoop。
在 HBase 中扫描 Titan table 的内容时,您会发现图形的序列化表示。 Titan 在 keys/columns/values 上使用数据压缩技术,因此您会发现数据不是人类可读的。您可以在 Titan docs.
中阅读有关存储布局细节的更多信息
查看 #1 的答案,您可能遇到过 运行 OLTP 查询。 Hadoop 风格的 OLAP 图形处理是通过图形计算机完成的。它使用 TitanHBaseInputFormat to read data in from the backend storage, then uses a TinkerPop Graph Computer (Spark or Giraph) to run the OLAP job. See the left side of the architecture diagram above: GremlinGraphComputer. There is also some documentation of this in the Titan docs.