认知中不同类型的成像技术

Different type of imaging techniques in kognitio

任何人都可以向我解释一下 kognitio 中可用的所有成像技术。

如果您掌握了以下技巧,那就太好了。

1) 已复制

2) 通过 (column_name)

复制分区映像

3) 对 (column_name) 分区图像进行哈希处理 (column_name)

提前致谢。

Kognitio 社区论坛文章 here 包含指向所有最新文档的链接。

特别是,Kognitio 指南的第 2 章涵盖了各种 table 和现有的视图图像选项。

原题中提到的是:

  1. replicated - 这里对象的副本被放置在每个 ram 存储进程中。这通常用于维度对象以允许它们连接到大对象,无论这些对象是随机分布还是散列。
  2. partitioned(决定是否分区与你是否replicating/randomising/hashing无关)——这允许ram存储在一个属性上分区。主要好处是可以在扫描时消除分区,从而减少处理的数据量。请注意有关分区的文档中的进一步评论。
  3. hashed - 对属性进行散列允许根据该属性值分配数据。例如,在零售示例中,您可以将客户 table 散列为 customer_id,并对交易 table 执行相同的操作,然后任何给定的交易都位于与相关客户记录。请注意,此分布容易出现偏差;因此,请查阅文档以获取有关使用部分分布来克服偏斜的详细信息。

我们在 WX2 中有四种不同的成像选项 Random – 均匀循环分配(默认) 散列——根据密钥放置到 RAM 存储中 部分散列——散列但处理倾斜属性 已复制 – 每个 RAM 存储的完整副本

复制将图像的副本放在每个 RAM 存储中。就 RAM 和重新分配时间而言,它可能代价高昂。适合小 lookup/dimension tables 它不能被分割。 Theta 连接需要它。复制是按 RAM 存储而不是按节点进行的。

散列将 table 或视图图像的行分布到 RAM 存储区。它取决于一个或多个列的值。它适用于连接大型 tables – 公共键上的散列。这可能会导致歪斜。不同值的数量小于 RAM 存储的数量。一两个值在频率上大大超过其他值。部分分布可用于抵消价值偏斜

部分散列是一种机制,用于在大 table 在键列上严重倾斜时处理连接。它是直接散列的替代方法。类型是部分 hashed/random RAM 存储和部分 hashed/replicated 跨 RAM 存储