词嵌入向量中权重的期望分布

Desired distribution of weights in word embedding vectors

我正在训练自己的嵌入向量，因为我专注于学术数据集 (WOS)；矢量是通过 word2vec 还是 fasttext 生成的并不特别重要。假设我的向量每个有 150 个维度。我想知道如果你对整个语料库的向量进行平均，向量中权重的理想分布应该是什么？

我在观察向量样本的分布时做了一些实验并得出了这些结论（不确定它们的绝对性）：

如果用太少的时期训练他们的模型，那么向量不会从它们的初始值发生显着变化（很容易看出，如果你开始你的向量在每个类别中的权重为 0）。因此，如果我的权重分布以某个点（通常为 0）为中心，那么我的语料库训练不足。

如果用太少 documents/over-trains 来训练他们的模型，那么向量之间会显示出显着的相关性（我通常会可视化一组随机向量，您可以看到条纹，其中所有向量的权重要么是正面或负面）。

我想象的是单个 "good" 向量在 -1 到 1 的整个范围内具有不同的权重。对于任何单个向量，它在 -1 或 1 附近可能有更多的维度。但是，权重整个语料库的分布将平衡向频谱的一端或另一端随机具有更多值的向量，以便整个语料库的权重分布近似均匀地分布在整个语料库中。这种直觉是正确的吗？

我不熟悉关于理想 "weights of the vectors" 的任何研究或民间智慧（我假设您指的是个体维度）。

总的来说，由于各个维度没有很强的可解释性，我不确定您能否详细说明任何一个维度的值应该如何分布。请记住，我们来自低维空间（2d、3d、4d）的直觉通常在高维空间中站不住脚。

我在研究中看到了两个有趣的、可能相关的观察结果：

一些人观察到，具有单一含义的单词的原始训练向量往往具有较大的量级，而具有多种含义的词具有较小的量级。对此的一个合理解释是，多义词标记的词向量被拉向不同的方向以获得多重对比意义，因此最终 "somewhere in the middle" （更接近原点，因此幅度较小）。但是请注意，大多数词向量到词向量的比较忽略大小，通过使用余弦相似度仅比较角度（或者在很大程度上等效地，通过将所有向量归一化为单位比较前的长度）。
Mu、Bhat 和 Viswanath https://arxiv.org/abs/1702.01417v2 的一篇论文 "All-but-the-Top: Simple and Effective Postprocessing for Word Representations" 指出，一起训练的所有词向量的平均值倾向于偏向某个方向从原点开始，但是消除这种偏差（以及向量中的其他共性）可以为许多任务改进向量。在我自己的个人实验中，我观察到来自原点的偏差的大小似乎与所选 negative 样本的数量相关 - 并且仅选择 1 个负样本的极端（和不常见）值使得这种偏差可以忽略不计（但对于整体质量或 efficiency/speed 培训可能不是最好的）。

因此，可能通过观察向量的相对分布对向量质量有用的启发式方法，但我不确定是否会对单个维度敏感（除非这些恰好是矢量在某个轴上的投影）。