深度学习中的词嵌入是如何工作的？

Question

我对词嵌入有一个非常基本的疑问。我有一个理解，word embeddings是用来在不丢失上下文的情况下以数字格式表示文本数据，这对训练深度模型很有帮助。

现在我的问题是，word embedding算法是否需要学习一次所有数据，然后用数字格式表示每条记录？否则，每条记录将在知道其他记录的情况下单独表示。

张量流代码：

这是我使用示例代码进行的实验，其中嵌入独立地将数据重构为指定的维度。

我的理解正确吗？

Answer 1

不，它不需要一次学习所有数据然后用数字格式表示每条记录，它是单独完成的。你做的是对的，但是自然语言处理的方法有很多，我也可以推荐给你一个好方法，就是把每个字母转换成一个数字，所以这里可以一个字母一个字母的预测，是这样吗不会很快，但它可以保证良好的准确性，因为字母的词汇量少于单词的词汇量，它可以是这样的：

vocab = set( your_text ) # extract each distinct letter
vocab_to_int = {l:i for i,l in enumerate(vocab)} # transforms letter to number
int_to_vocab = {i:l for i,l in enumerate(vocab)} # do the inverse

transformed_text = [vocab_to_int[l] for l in your_text] # all text transformed

深度学习中的词嵌入是如何工作的？

How does Word Embeddings in Deep Learning works?

deep-learning

tensorflow

word-embedding