自动编码器的数据预处理技巧

data preprocessing tricks for auto-encoder

最近,我尝试使用自动编码器来查找异常,但一些输入特征是计数数据(例如点击次数或显示次数)。训练前是否需要归一化或缩放?

我假设任何一种数值特征都需要归一化和比例数据预处理,否则你可能会遇到这样一种情况,即一个特征比其他特征对分类过程的影响更大,仅仅是因为它可以容纳的数据范围.

是的,你会的。最常见的方法是减去均值并除以标准差。您的每一个点击项目都应该单独标准化。例如,如果您有 'nb_click_banner' 和 'nb_click_sidebar' 的数量,您应该独立地对两者进行归一化。这有助于网络更快地训练,但它也在输入处为所有特征赋予相同的权重,并且不需要网络学习将这些特征的权重除以某个因素以使其对输出产生相同的效果。