如何构建合适的 H2O word2vec training_frame
How to build a propper H2O word2vec training_frame
如何构建一个区分不同 document/sentences 等的 H2O word2vec training_frame?
就我所找到的非常有限的文档而言,您只是提供了一长串单词?如
'This' 'is' 'the' 'first' 'This' 'is' 'number' 'two'
然而,能够区分是有意义的——理想情况下是这样的:
Name | ID
This | 1
is | 1
the | 1
first | 1
This | 2
is | 2
number | 2
two | 2
这可能吗?
word2vec 是一种无监督学习:它将字符串数据转换为数字。因此,要进行分类,您需要执行两个步骤:
- word2vec 字符串到数字
- 将数字分类的任何监督学习技术
documentation contains links to a categorization example in each of R and Python. This tutorial 显示了不同数据集上的相同过程(并且应该有一个 H2O World 2017 视频与之配套)。
顺便说一句,在你原来的例子中,你不只是提供单词;句子由 NA 分隔。如果你给 h2o.tokenize() 一个句子向量,它会为你生成这种格式。所以你的例子实际上是:
'This' 'is' 'the' 'first' NA 'This' 'is' 'number' 'two'
如何构建一个区分不同 document/sentences 等的 H2O word2vec training_frame?
就我所找到的非常有限的文档而言,您只是提供了一长串单词?如
'This' 'is' 'the' 'first' 'This' 'is' 'number' 'two'
然而,能够区分是有意义的——理想情况下是这样的:
Name | ID
This | 1
is | 1
the | 1
first | 1
This | 2
is | 2
number | 2
two | 2
这可能吗?
word2vec 是一种无监督学习:它将字符串数据转换为数字。因此,要进行分类,您需要执行两个步骤:
- word2vec 字符串到数字
- 将数字分类的任何监督学习技术
documentation contains links to a categorization example in each of R and Python. This tutorial 显示了不同数据集上的相同过程(并且应该有一个 H2O World 2017 视频与之配套)。
顺便说一句,在你原来的例子中,你不只是提供单词;句子由 NA 分隔。如果你给 h2o.tokenize() 一个句子向量,它会为你生成这种格式。所以你的例子实际上是:
'This' 'is' 'the' 'first' NA 'This' 'is' 'number' 'two'