Word2Vec 不包含数字 23 的嵌入
Word2Vec Doesn't Contain Embedding for Number 23
您好,我正在开发带有注意力的 Encoder-Decoder 模型,该模型预测 WTO 专家组报告给定的事实关系 Text_Inputs。
Sample_sentence 事实关系如下:
sample_sentence="On 23 January 1995, the United States received a request from Venezuela to hold consultations under Article XXII:1 of the General Agreement on Tariffs and Trade 1994 (\"总协定\")、技术性贸易壁垒协定第14.1条(\"TBT Agreement\")和规则与程序谅解第4条Governing the Settlement of Disputes (\"DSU\"),根据环境保护署于 1993 年 12 月 15 日发布的规则,标题为 \"Regulation of Fuels and Fuel Additives - Standards for Reformulated and Conventional Gasoline\" (WT/DS2/1)。委内瑞拉与美国的磋商国家于 1995 年 2 月 24 日发生了争端。由于他们没有就此事达成令人满意的解决方案,委内瑞拉在 1995 年 3 月 25 日的来文中要求争端解决 Body (\"DSB\") 建立根据《总协定》第XXIII:2条和《争端解决谅解》第6条(WT/DS2/2)成立专家组审议该事项。1995年4月10日,DSB应委内瑞拉的请求成立专家组。 1995 年 4 月 28 日,争端各方同意专家组应有标准的职权范围(DSU,第 7 条),并同意专家组的组成如下
我正在尝试使用 google 中的 Word2Vec 并将每个词编码为 300dim 词向量,但是,像数字 23 似乎不包含在 Word2Vec VocaSets 中。
这个问题的解决方案是什么?
1) 使用另一个词嵌入例如 Glovec?
2) 或其他任何其他建议?
提前感谢您的帮助
- 编辑)
我认为要成功完成这项任务,我认为首先我必须在实际训练之前了解当前的 NMT 应用程序如何处理命名实体识别问题。
有没有参考文献?
Word2Vec 只学习它经常看到的单词。
也许尝试用文本替换源中的数字,即 ("On the twenty third of ...")?
您好,我正在开发带有注意力的 Encoder-Decoder 模型,该模型预测 WTO 专家组报告给定的事实关系 Text_Inputs。
Sample_sentence 事实关系如下:
sample_sentence="On 23 January 1995, the United States received a request from Venezuela to hold consultations under Article XXII:1 of the General Agreement on Tariffs and Trade 1994 (\"总协定\")、技术性贸易壁垒协定第14.1条(\"TBT Agreement\")和规则与程序谅解第4条Governing the Settlement of Disputes (\"DSU\"),根据环境保护署于 1993 年 12 月 15 日发布的规则,标题为 \"Regulation of Fuels and Fuel Additives - Standards for Reformulated and Conventional Gasoline\" (WT/DS2/1)。委内瑞拉与美国的磋商国家于 1995 年 2 月 24 日发生了争端。由于他们没有就此事达成令人满意的解决方案,委内瑞拉在 1995 年 3 月 25 日的来文中要求争端解决 Body (\"DSB\") 建立根据《总协定》第XXIII:2条和《争端解决谅解》第6条(WT/DS2/2)成立专家组审议该事项。1995年4月10日,DSB应委内瑞拉的请求成立专家组。 1995 年 4 月 28 日,争端各方同意专家组应有标准的职权范围(DSU,第 7 条),并同意专家组的组成如下
我正在尝试使用 google 中的 Word2Vec 并将每个词编码为 300dim 词向量,但是,像数字 23 似乎不包含在 Word2Vec VocaSets 中。
这个问题的解决方案是什么?
1) 使用另一个词嵌入例如 Glovec?
2) 或其他任何其他建议?
提前感谢您的帮助
- 编辑)
我认为要成功完成这项任务,我认为首先我必须在实际训练之前了解当前的 NMT 应用程序如何处理命名实体识别问题。
有没有参考文献?
Word2Vec 只学习它经常看到的单词。
也许尝试用文本替换源中的数字,即 ("On the twenty third of ...")?