如何构建合适的 H2O word2vec training_frame

How to build a propper H2O word2vec training_frame

如何构建一个区分不同 document/sentences 等的 H2O word2vec training_frame?

就我所找到的非常有限的文档而言,您只是提供了一长串单词?如

'This' 'is' 'the' 'first' 'This' 'is' 'number' 'two'

然而,能够区分是有意义的——理想情况下是这样的:

Name   | ID
This   | 1
is     | 1
the    | 1
first  | 1
This   | 2
is     | 2
number | 2
two    | 2

这可能吗?

word2vec 是一种无监督学习:它将字符串数据转换为数字。因此,要进行分类,您需要执行两个步骤:

  • word2vec 字符串到数字
  • 将数字分类的任何监督学习技术

documentation contains links to a categorization example in each of R and Python. This tutorial 显示了不同数据集上的相同过程(并且应该有一个 H2O World 2017 视频与之配套)。

顺便说一句,在你原来的例子中,你不只是提供单词;句子由 NA 分隔。如果你给 h2o.tokenize() 一个句子向量,它会为你生成这种格式。所以你的例子实际上是:

'This' 'is' 'the' 'first' NA 'This' 'is' 'number' 'two'