是否有可能在具有相同大 O 可扩展性的消费类处理器上实施 PRAM CRCW 算法?

Is it possible to implement PRAM CRCW algorithms on consumer processors with the same big O scalability?

我了解到有些线性时间排序算法不像基数排序那样通过比较 运行。我希望有一个排序算法,在线性时间内 运行s,但也可以通过 运行n 个线程为 n 个元素在常数时间内 运行。根据我所做的研究,这在 PRAM CRCW 机器上似乎是可能的,但我发现关于 PRAM CRCW 机器上 运行s 的算法是否可以在标准上 运行 的相互矛盾的信息消费者计算机在同一恒定时间内。

仅供参考,所讨论的算法 here. This 也很有趣。

可以吗?

Q : "Is it possible ( to implement PRAM CRCW on consumer processor ) ?"

A :
我们先把事实讲清楚。我们可以就什么是“消费者”处理器达成共识——最常见的 COTS 术语是正确的——Custom-Over-The-Shelf处理器,谁都可以去买。任何此类 COTS 硬件的属性集也是如此,由硅结构 pre-fabricated 在此类处理器“内部”pre-defined。

相反,CRCW PRAM 术语是有意且有意高度抽象的,最终理想化了任何此类处理器架构,可以(没有任何时间限制或其他妥协)Concurrently Read(在任何和所有并行级别下)以及 Concurrently W rite(在任何和所有级别的并行性下)from/into 任何内存位置(“地址”)同时添加一些额外的 créme-a-la-créme 属性,喜欢在实际存储这样的结果值之前执行所有 CW-s 的总和。这些抽象属性的任何此类物理实现,如果在任何情况下都满足它们,完全没有例外 parallel-mode,可以称为 CRCW PRAM,否则就不会被称为 CRCW PRAM。

这就是说,目前任何 COTS 处理器硬件芯片都没有满足 CRCW PRAM 架构,甚至没有接近它。

根据定义,这样的问题导致了实际上无法实现的希望 architecture-A 通过使用 architecture-B 得到“实施”(这永远不会变成满足 ​​architecture-A,即使将许多这样的 COTS 处理器(如定义的)组合成一些互连的 macro-structure,这可能会使某些 COTS 硬件属性更“接近”CRCW PRAM,但成本如此之低或速度如此之慢操作,这样的尝试可能会导致 ultra-expensive + ultra-power-inefficient + ultra-slow(大约 N2 ~ 3 sub-sampled 并且如果从 macro-structure 的角度来看,需要人为地“等待”所有最慢的部分,以便 full-width 的并行性在物理上完成).

使用任意数量的超标量、M-way 流水线、乱序执行 CISC 芯片来实现 macro-structure 拓扑技巧,仅用于模拟“减速”CRCW PRAM 恕我直言,技术上不正确要走的路(如果我们想享受相当实用的 O( k )-分拣机)。


如果使用当前级别的 QPU 处理器,我们可能会“以某种方式”享受恒定时间 QUBO(D-WAVE 系统机器的当前行中的单个 hardware-instruction 量子处理器),我会犹豫考虑这个 corner-case(拓扑设置以承受“初始”状态并让自然(物理定律)“执行”quantum-annealing“算法”以产生 statistical-distribution 的结果,在恒定时间内回答问题的解决方案)一个 COTS,它不是,是吗?