使用 Word2Vec 和 Pos 标签进行文本分类

Text classification using Word2Vec and Pos tag

我有一个像

这样的医学数据集

文本:“虚弱、腹泻、颈痛” 目标:编码诊断的“X.1、Y.1”

我还使用预训练的 Word2Vec 和 pos 标记。 例如 weakness 这个词有像

这样的词向量

[0.2 0.04 ....... 0.05](300 暗)

并且词性标注是“症状,名词”

我的问题是如何结合pos tagging和word embedding来用keras训练?

有多种方法可以解决这个问题。

  1. 您可以构建一个集成模型,即您可以使用两个不同的模型分别使用 pos 标签和 word2vec 进行训练。如果你在最后一层得到预测值(或任何模型中概率的某种解释),你可以取平均值作为你的最终预测。

  2. 您可以将 word2vec 与 pos 标签组合成 运行 神经网络。

但是,我坚信在这些情况下 POS 标签不是一个好主意。你可以看到,所有这些词可能都有相似的pos标签(大多数是孤立的词和名词),数据的熵会小得多。