深度学习中的词嵌入是如何工作的?

How does Word Embeddings in Deep Learning works?

我对词嵌入有一个非常基本的疑问。我有一个理解,word embeddings是用来在不丢失上下文的情况下以数字格式表示文本数据,这对训练深度模型很有帮助。

现在我的问题是,word embedding算法是否需要学习一次所有数据,然后用数字格式表示每条记录?否则,每条记录将在知道其他记录的情况下单独表示。

张量流代码:

这是我使用示例代码进行的实验,其中嵌入独立地将数据重构为指定的维度。

我的理解正确吗?

不,它不需要一次学习所有数据然后用数字格式表示每条记录,它是单独完成的。 你做的是对的,但是自然语言处理的方法有很多,我也可以推荐给你一个好方法,就是把每个字母转换成一个数字,所以这里可以一个字母一个字母的预测,是这样吗不会很快,但它可以保证良好的准确性,因为字母的词汇量少于单词的词汇量,它可以是这样的:

vocab = set( your_text ) # extract each distinct letter
vocab_to_int = {l:i for i,l in enumerate(vocab)} # transforms letter to number
int_to_vocab = {i:l for i,l in enumerate(vocab)} # do the inverse

transformed_text = [vocab_to_int[l] for l in your_text] # all text transformed