HBase 列族位置
HBase Column family locality
五台服务器上有 HBase,其中一台 Table 包含一列 Family,我应该对每个键执行一些 map
任务并保存结果。
主要问题是:
保持数据局部性哪个更好:在存在 Table 上创建 新列族 或创建 新 Table?
和下一个问题:
HBase 文档 建议保持少于三个列族,正如我所说,我有十多个 map
任务,并将每个结果保存在新的列中 Family.what我该怎么做?因为每个 map
任务都与其他任务不同。 位置 保留和搜索成本 很重要。
which one is better: create new Column Family on the existence Table
or create new Table
我建议更多地关注 table 设计的架构和简单性,而不是试图破解 HBase 内部结构以获得最佳性能。如果来自这 2 个列族的信息是相关的并且您需要在 map-reduce 扫描中访问两个 CF - 将它们保持在相同 table 中。如果信息是 100% 独立的,并且您永远不需要同时扫描它们——将它们放在不同的 table 中。同样,这是一个架构设计问题,请勿尝试执行过早的优化。
第二个问题 - 我不明白你在说什么,抱歉。
五台服务器上有 HBase,其中一台 Table 包含一列 Family,我应该对每个键执行一些 map
任务并保存结果。
主要问题是:
保持数据局部性哪个更好:在存在 Table 上创建 新列族 或创建 新 Table?
和下一个问题:
HBase 文档 建议保持少于三个列族,正如我所说,我有十多个 map
任务,并将每个结果保存在新的列中 Family.what我该怎么做?因为每个 map
任务都与其他任务不同。 位置 保留和搜索成本 很重要。
which one is better: create new Column Family on the existence Table or create new Table
我建议更多地关注 table 设计的架构和简单性,而不是试图破解 HBase 内部结构以获得最佳性能。如果来自这 2 个列族的信息是相关的并且您需要在 map-reduce 扫描中访问两个 CF - 将它们保持在相同 table 中。如果信息是 100% 独立的,并且您永远不需要同时扫描它们——将它们放在不同的 table 中。同样,这是一个架构设计问题,请勿尝试执行过早的优化。
第二个问题 - 我不明白你在说什么,抱歉。