特征哈希/雪崩效应

Feature Hashing / Avalanche Effect

我一直在阅读一些关于降维的特征散列。我知道使用具有统一输出分布的哈希函数很重要（输入映射到特定值的机会与范围内的每个其他值相同），以及 avalanche/cascade 效果（输入的微小变化会导致输出的巨大变化）。这些属性将确保特征之间的碰撞与它们的频率无关。但是，我仍然不清楚雪崩效应（具体）如何影响这一点。任何人都可以解释 why/how 它在这里很重要吗？什么构成产出的“大变化”？

参考资料： http://blog.someben.com/2013/01/hashing-lang/ http://metaoptimize.com/qa/questions/6943/what-is-the-hashing-trick#6945

这个想法是，如果你有一个紧密的输入数据集群，你仍然希望散列函数将输出散布在整个地图上。结果是碰撞将是一个均匀的随机事件，而不是那个紧密的集群给你一连串的碰撞——或者一连串与另一个紧密集群的映射的碰撞。

"Big change" 建议您的哈希函数 h 应该表明 h(a) - h(b) 随机独立于 (a-b)。

够了吗？如果您需要更多说明，请跟进。

雪崩效应确保输入的微小变化（例如单词：云与云）会产生输出的巨大变化，即接近的输入值会产生遥远且不可预测的输出值。

特征哈希/雪崩效应

Feature Hashing / Avalanche Effect

machine-learning

dimensionality-reduction