Word2Vec可以用来做信息抽取吗?

Can Word2Vec be used for information extraction?

我正在使用 Gensim 训练 Word2Vec。我知道单词相似度取决于单词是否可以相互替换并在句子中有意义。但是可以使用词相似度来提取实体之间的关系吗?

示例: 我有一堆面试文件,在每次面试中,受访者总是说出他们经理的名字。如果我想从这些采访记录中提取经理的名字,我可以只得到文档中所有人名的列表(使用 nlp),以及使用 Word2Vec 与单词 "manager" 最相似的名字, 很可能是经理。

这个思维过程对 Word2Vec 有意义吗?如果没有,这个问题的 ML 解决方案是否会是将我的词嵌入输入到序列到序列模型中?

是的,词向量相似性和相对排列可以表明关系。

在最初的 Word2Vec 论文中,这是通过使用词向量来解决词类比来证明的。最著名的例子涉及类比“'man' 是 'king' 就像 'woman' 是?”。

从 'king' 的词向量开始,然后减去 'man' 的向量,再加上 'woman' 的向量,你就得到了坐标中的一个新点系统。然后,如果您寻找接近该新点的其他词,通常最接近的词是 queen。从本质上讲,方向和距离有助于找到以特定方式相关的词——性别颠倒的等价物。

而且,在大型新闻语料库中,像 'Obama' 或 'Bush' 这样的著名名字最终会得到更接近他们知名职位的向量,如 'president'。 (在这样的语料库中会有很多上下文,其中单词立即出现在一起 – "President Obama today signed…" – 或者只是扮演相似的角色 – "The President appointed…" 或 "Obama appointed…",等等)

但是,我怀疑这不太可能适用于您的 'manager' 面试记录示例。实现有意义的词对词排列取决于共享使用上下文中词的许多不同示例。强向量需要数百万到数十亿词的大型语料库。因此,单个经理的成绩单可能不足以获得良好的模型——您需要许多经理的成绩单。

在这样的语料库中,每个经理的名字可能不会仅与类似 manager 的上下文密切相关。当还提到其他角色时,将重复相同的名称,并且成绩单可能不会特别提到管理行动,以有用的第三人称方式使特定的名称向量定位良好。 (也就是说,不会有像 "John_Smith called a staff meeting" 或 "John_Smith cancelled the project, alongside others like "…经理 John_Smith…”或 "The manager cancelled the project" 这样清晰的说明性陈述。)