使用 Google 搜索术语列表,以便为特定类别构建词袋

Searching for list of terms using Google in order to build a bag-of-words for a particular category

我很难理解构建词袋的过程。这将是一个多类分类监督机器学习问题,其中一个网页或一段文本被分配到多个预定义类别中的一个类别。现在我在为特定类别(例如'Math')构建词袋时熟悉的方法是收集大量与Math相关的网页。从那里,我将执行一些数据处理(例如删除停用词和执行 TF-IDF)以获得类别 'Math'.

的词袋

问题:我正在考虑的另一种方法是在 google 中搜索类似 'List of terms related to Math' 的内容来构建我的词袋。请问这个方法可以吗?

另外一个问题:在这个问题的上下文中,bag-of-words和corpus是一个意思吗?

提前致谢!

这不是词袋。词袋是描述表示给定 文档 的特定方式的术语。即,文档(段落、句子、网页)表示为

形式的映射
word: how many times this word is present in a document

例如 "John likes cats and likes dogs" 将表示为:{john: 1, likes: 2, cats: 1, and: 1, dogs: 1}。这种表示可以很容易地输入到典型的 ML 方法中(特别是如果假设总词汇量是有限的,所以我们最终得到数字向量)。

请注意,这 不是 关于 "creating a bag of words for a category"。类别,在典型的监督学习中将由多个文档组成,每个文档 独立地 表示为一袋词。

特别是,这使您提出 google 询问与类别相关的词的最终提议无效 - 这不是典型的 ML 方法的工作方式。你得到很多文档,将它们表示为词袋(或其他东西),然后执行统计分析(建立模型)以找出区分类别的最佳规则集。这些规则通常 不会 只是 "if the word X is present, this is related to Y".