使用 Word2Vec 和 Pos 标签进行文本分类
Text classification using Word2Vec and Pos tag
我有一个像
这样的医学数据集
文本:“虚弱、腹泻、颈痛” 目标:编码诊断的“X.1、Y.1”
我还使用预训练的 Word2Vec 和 pos 标记。
例如 weakness 这个词有像
这样的词向量
[0.2 0.04 ....... 0.05](300 暗)
并且词性标注是“症状,名词”
我的问题是如何结合pos tagging和word embedding来用keras训练?
有多种方法可以解决这个问题。
您可以构建一个集成模型,即您可以使用两个不同的模型分别使用 pos 标签和 word2vec 进行训练。如果你在最后一层得到预测值(或任何模型中概率的某种解释),你可以取平均值作为你的最终预测。
您可以将 word2vec 与 pos 标签组合成 运行 神经网络。
但是,我坚信在这些情况下 POS 标签不是一个好主意。你可以看到,所有这些词可能都有相似的pos标签(大多数是孤立的词和名词),数据的熵会小得多。
我有一个像
这样的医学数据集文本:“虚弱、腹泻、颈痛” 目标:编码诊断的“X.1、Y.1”
我还使用预训练的 Word2Vec 和 pos 标记。 例如 weakness 这个词有像
这样的词向量[0.2 0.04 ....... 0.05](300 暗)
并且词性标注是“症状,名词”
我的问题是如何结合pos tagging和word embedding来用keras训练?
有多种方法可以解决这个问题。
您可以构建一个集成模型,即您可以使用两个不同的模型分别使用 pos 标签和 word2vec 进行训练。如果你在最后一层得到预测值(或任何模型中概率的某种解释),你可以取平均值作为你的最终预测。
您可以将 word2vec 与 pos 标签组合成 运行 神经网络。
但是,我坚信在这些情况下 POS 标签不是一个好主意。你可以看到,所有这些词可能都有相似的pos标签(大多数是孤立的词和名词),数据的熵会小得多。