Word2Vec 不包含数字 23 的嵌入

Word2Vec Doesn't Contain Embedding for Number 23

您好,我正在开发带有注意力的 Encoder-Decoder 模型,该模型预测 WTO 专家组报告给定的事实关系 Text_Inputs。

Sample_sentence 事实关系如下:

sample_sentence="On 23 January 1995, the United States received a request from Venezuela to hold consultations under Article XXII:1 of the General Agreement on Tariffs and Trade 1994 (\"总协定\")、技术性贸易壁垒协定第14.1条(\"TBT Agreement\")和规则与程序谅解第4条Governing the Settlement of Disputes (\"DSU\"),根据环境保护署于 1993 年 12 月 15 日发布的规则,标题为 \"Regulation of Fuels and Fuel Additives - Standards for Reformulated and Conventional Gasoline\" (WT/DS2/1)。委内瑞拉与美国的磋商国家于 1995 年 2 月 24 日发生了争端。由于他们没有就此事达成令人满意的解决方案,委内瑞拉在 1995 年 3 月 25 日的来文中要求争端解决 Body (\"DSB\") 建立根据《总协定》第XXIII:2条和《争端解决谅解》第6条(WT/DS2/2)成立专家组审议该事项。1995年4月10日,DSB应委内瑞拉的请求成立专家组。 1995 年 4 月 28 日,争端各方同意专家组应有标准的职权范围(DSU,第 7 条),并同意专家组的组成如下

我正在尝试使用 google 中的 Word2Vec 并将每个词编码为 300dim 词向量,但是,像数字 23 似乎不包含在 Word2Vec VocaSets 中。

这个问题的解决方案是什么?

1) 使用另一个词嵌入例如 Glovec?

2) 或其他任何其他建议?

提前感谢您的帮助

我认为要成功完成这项任务,我认为首先我必须在实际训练之前了解当前的 NMT 应用程序如何处理命名实体识别问题。

有没有参考文献?

Word2Vec 只学习它经常看到的单词。

也许尝试用文本替换源中的数字,即 ("On the twenty third of ...")?