是否有可能在具有相同大 O 可扩展性的消费类处理器上实施 PRAM CRCW 算法？

Is it possible to implement PRAM CRCW algorithms on consumer processors with the same big O scalability?

我了解到有些线性时间排序算法不像基数排序那样通过比较运行。我希望有一个排序算法，在线性时间内运行s，但也可以通过运行n 个线程为 n 个元素在常数时间内运行。根据我所做的研究，这在 PRAM CRCW 机器上似乎是可能的，但我发现关于 PRAM CRCW 机器上运行s 的算法是否可以在标准上运行的相互矛盾的信息消费者计算机在同一恒定时间内。

仅供参考，所讨论的算法 here. This 也很有趣。

可以吗？

Q : "Is it possible _{( to implement PRAM CRCW on consumer processor )} ?"

A :
我们先把事实讲清楚。我们可以就什么是“消费者”处理器达成共识——最常见的 COTS 术语是正确的——Custom-Over-The-Shelf处理器，谁都可以去买。任何此类 COTS 硬件的属性集也是如此，由硅结构 pre-fabricated 在此类处理器“内部”pre-defined。

相反，CRCW PRAM 术语是有意且有意高度抽象的，最终理想化了任何此类处理器架构，可以（没有任何时间限制或其他妥协）Concurrently Read（在任何和所有并行级别下）以及 Concurrently W rite（在任何和所有级别的并行性下）from/into 任何内存位置（“地址”）同时添加一些额外的 créme-a-la-créme 属性，喜欢在实际存储这样的结果值之前执行所有 CW-s 的总和。这些抽象属性的任何此类物理实现，如果在任何情况下都满足它们，完全没有例外 parallel-mode，可以称为 CRCW PRAM，否则就不会被称为 CRCW PRAM。

这就是说，目前任何 COTS 处理器硬件芯片都没有满足 CRCW PRAM 架构，甚至没有接近它。

根据定义，这样的问题导致了实际上无法实现的希望 architecture-A 通过使用 architecture-B 得到“实施”（这永远不会变成满足 architecture-A，即使将许多这样的 COTS 处理器（如定义的）组合成一些互连的 macro-structure，这可能会使某些 COTS 硬件属性更“接近”CRCW PRAM，但成本如此之低或速度如此之慢操作，这样的尝试可能会导致 ultra-expensive + ultra-power-inefficient + ultra-slow（大约 N^{2 ~ 3} sub-sampled 并且如果从 macro-structure 的角度来看，需要人为地“等待”所有最慢的部分，以便 full-width 的并行性在物理上完成).

使用任意数量的超标量、M-way 流水线、乱序执行 CISC 芯片来实现 macro-structure 拓扑技巧，仅用于模拟“减速”CRCW PRAM 恕我直言，技术上不正确要走的路（如果我们想享受相当实用的 O( k )-分拣机）。

如果使用当前级别的 QPU 处理器，我们可能会“以某种方式”享受恒定时间 QUBO（D-WAVE 系统机器的当前行中的单个 hardware-instruction 量子处理器），我会犹豫考虑这个 corner-case（拓扑设置以承受“初始”状态并让自然（物理定律）“执行”quantum-annealing“算法”以产生 statistical-distribution 的结果，在恒定时间内回答问题的解决方案）一个 COTS，它不是，是吗？

是否有可能在具有相同大 O 可扩展性的消费类处理器上实施 PRAM CRCW 算法？

Is it possible to implement PRAM CRCW algorithms on consumer processors with the same big O scalability?

algorithm

parallel-processing

computer-science

processor

synchronous