对 DSSM 中的单词散列感到困惑?

Confusion about word hashing in DSSM?

在本文Learning Deep Structured Semantic Models for Web Search using Clickthrough Data中,它使用单词哈希技术将单词的单热表示转换为字母三元组的(稀疏)向量。

例如,根据我的理解,单词 look 首先被分解为字母三元组 [#lo, loo, ook, ok#],然后表示为一个向量,其中每个三元组为 1,其他地方为零。通过这样做,它可以减少词向量的维度,同时如论文中所说的那样具有非常少的冲突。

我的困惑是,通常如果我们使用词袋表示来表示基于单热表示的文档,我们只是计算每个词的出现次数。但是我可以想象,如果我们使用基于字母三元组的词袋,很容易会有共享共同模式的不同单词,因此似乎很难通过这种表示来恢复文档中哪些单词的信息。

我的理解正确吗?这个问题是如何解决的?或者它对论文中的 query/title 实验并不重要?

However I can imagine if we use bag-of-words based on letter trigrams there'll easily be different words sharing common patterns so it seems difficult to recover the information of which words are in the document by such representation.

这是正确的,因为该模型并未明确旨在通过使用来自单词的信息来学习后验概率。相反,它使用来自三元组的信息。

How was this issue solved? or it doesn't really matter to the query/title experiment in the paper?

这个问题可以通过添加一个 CNN/LSTM 层来表示来自三元组输入的更高(接近单词)的抽象来解决。 this paper 中报告的研究在三元组输入之上采用了 CNN,如下所示。