如何构建合适的 H2O word2vec training_frame

Question

如何构建一个区分不同 document/sentences 等的 H2O word2vec training_frame？

就我所找到的非常有限的文档而言，您只是提供了一长串单词？如

'This' 'is' 'the' 'first' 'This' 'is' 'number' 'two'

然而，能够区分是有意义的——理想情况下是这样的：

Name   | ID
This   | 1
is     | 1
the    | 1
first  | 1
This   | 2
is     | 2
number | 2
two    | 2

这可能吗？

Answer 1

word2vec 是一种无监督学习：它将字符串数据转换为数字。因此，要进行分类，您需要执行两个步骤：

documentation contains links to a categorization example in each of R and Python. This tutorial 显示了不同数据集上的相同过程（并且应该有一个 H2O World 2017 视频与之配套）。

顺便说一句，在你原来的例子中，你不只是提供单词；句子由 NA 分隔。如果你给 h2o.tokenize() 一个句子向量，它会为你生成这种格式。所以你的例子实际上是：

'This' 'is' 'the' 'first' NA 'This' 'is' 'number' 'two'

How to build a propper H2O word2vec training_frame