特征哈希/雪崩效应

Feature Hashing / Avalanche Effect

我一直在阅读一些关于降维的特征散列。我知道使用具有统一输出分布的哈希函数很重要(输入映射到特定值的机会与范围内的每个其他值相同),以及 avalanche/cascade 效果(输入的微小变化会导致输出的巨大变化)。这些属性将确保特征之间的碰撞与它们的频率无关。但是,我仍然不清楚雪崩效应(具体)如何影响这一点。任何人都可以解释 why/how 它在这里很重要吗?什么构成产出的“大变化”?

参考资料: http://blog.someben.com/2013/01/hashing-lang/ http://metaoptimize.com/qa/questions/6943/what-is-the-hashing-trick#6945

这个想法是,如果你有一个紧密的输入数据集群,你仍然希望散列函数将输出散布在整个地图上。结果是碰撞将是一个均匀的随机事件,而不是那个紧密的集群给你一连串的碰撞——或者一连串与另一个紧密集群的映射的碰撞。

"Big change" 建议您的哈希函数 h 应该表明 h(a) - h(b) 随机独立于 (a-b)。

够了吗?如果您需要更多说明,请跟进。

雪崩效应确保输入的微小变化(例如单词:云与云)会产生输出的巨大变化,即接近的输入值会产生遥远且不可预测的输出值。