词嵌入、查找表、词嵌入可视化

Word Embedding, LookupTable, Word Embedding Visualizations

我需要问几个关于词嵌入的问题.....可能是基本的。

  1. 当我们将单词的单热向量(例如 king [0 0 0 1 0] 转换为嵌入向量 E = [0.2, 0.4, 0.2, 0.2] 时...对于生成的单词向量中的每个索引是否重要?例如 E[1] 是 0.2.... 具体 E[1] 定义了什么(虽然我知道它基本上是到另一个 space 的转换)...或者词向量共同定义上下文但不是个别...
  2. 与原始单热向量相比,词向量的维度(减少或增加)有何影响?
  3. 我们如何根据嵌入层定义查找 table?
  4. 查找 table 是一种随机生成的 table 还是它已经针对数据中的数据实例进行了单独训练,我们只是稍后在神经网络操作中使用它? 5- 是否有任何方法可以在隐藏层可视化嵌入向量(正如我们在基于图像的神经网络处理中所做的那样)?

提前致谢

1:embedding vector中的每个元素(或一组元素)都有一定的意义,但对人类来说大多是未知的。根据您使用的算法,词嵌入向量可能具有不同的含义,但通常很有用。 例如,Glove,相似词'frog','toad'在向量space中彼此靠近。 King - man 结果向量类似于 Queen。

  1. 把词汇变成索引。例如,您有一个词汇表: [狗、猫、老鼠、喂、玩、和] 然后是句子: Dog play with cat => 0, 4, 5, 1 同时,您的嵌入矩阵如下

    [0.1, 0.1, 0] # 评论:这是狗
    [0.2, 0.5, 0.1] # 这是猫
    [...]
    [...]
    [...]
    [...]

其中第一行是狗的嵌入向量,第二行是猫,依此类推 然后,您使用索引 (0, 4, 5, 1) 查找后将成为矩阵 [[0.1, 0.1, 0][...][...][0.2, 0.5, 0.1]]

  1. 其中之一或两者
    • 您可以随机初始化嵌入向量并使用梯度下降对其进行训练
    • 您可以采用预训练词向量并保持固定(即:只读,无变化)。 您可以在模型中训练您的词向量并在另一个模型中使用它。我们可以在线下载预训练词向量。 Common Crawl 示例(840B 令牌、2.2M 词汇、大小写、300d 向量、2.03 GB 下载):glove.840B.300d.zip on Glove
    • 您可以使用预训练词向量进行初始化,并通过梯度下降训练您的模型

更新: one-hot vector不包含任何信息。你可以认为 one-hot 向量是该向量在词汇表中的索引。 例如,Dog => [1, 0, 0, 0, 0, 0] 和 cat => [0, 1, 0, 0, 0, 0]。 one-hot 与索引之间存在一些差异:

  • 如果你输入一个索引列表:[0, 4, 5, 1] 到你的多层感知器,它无法学习任何东西(我试过......)。但是如果你输入one-hot 向量 [[...1][1...][...][...]] 的矩阵,它学到了一些东西。但就 RAM 和 CPU 而言,它的成本很高。

  • One-hot 需要大量内存来存储零。因此,如果你没有,我建议随机初始化嵌入矩阵。将数据集存储为索引,并使用索引查找嵌入向量

"its mean that lookup table is just a matrix of embedded vectors (already been trained seperately via word2vec or...) for each word in the vocabulary. and while in the process of neural network either we can use an Embedding Layer or we can just refer to embedded vector in lookup table for that particular embedded vector against particular one-hot vector."

使用"INDEX"在查找table中查找。将 dog 变为 0,将 cat 变为 1。one-hot vector 和 index 包含相同的信息,但 one-hot 需要更多的内存来存储。此外,许多深度学习框架接受索引作为嵌入层的输入(输出是表示该索引中单词的向量。)

". How we get this embedding vector..."

=> 阅读论文。这是关于 Word2vecGlove 的论文。向你的讲师询问更多细节,他们愿意帮助你。