理解算法 - 多项式朴素贝叶斯
Understanding algorithm - Multinomial Naive Bayes
我已经了解了朴素贝叶斯 class 化方法(多项式 NB),参考了 Michael Sipser 在他的书中如何描述 "The Theory of Computation"。
我正在查看针对训练和应用多项式 NB 所描述的算法,如下所示:
但是,在解释算法的某些方面时,我感到茫然。例如,在第 6 行的 TRAINMULTINOMIALNB(C, D) 中:
- CONCATENATE_TEXT_OF_ALL_DOCS_IN_CLASS(D, C) 究竟是做什么的?
到目前为止,我的理解如下。假设我们在 class "movies" 和 "songs" 中有三个 - 3 - 文档:
MOVIES
DOC1 = "big fish"
DOC2 = "big lebowski"
DOC3 = "mystic river"
SONGS
DOC1 = "purple rain"
DOC2 = "crying in the rain"
DOC3 = "anaconda"
在应用 CONCATENATE_TEXT_OF_ALL_DOCS_IN_CLASS(D, C) 之后,您是否会留下字符串:
String concatenatedMovies = "big fish big lebowski mystic river"
String concatenatedSongs = "purple rain crying in the rain anaconda"
这样对吗?
非常感谢任何有助于理解这一点的帮助。
最后,你希望能够根据内容对一些文本进行分类。所以你希望能够说出它是歌曲还是电影等
为了使用贝叶斯(或其他方法)做到这一点,您首先使用训练数据构建模型。
首先,通过在第 5 行创建 priors
(class 中的文档/总文档)。
比起你计算 conditional probabilities
(给定 class MOVIES 的单词 fish 的概率,给定 class SONGS 的单词 rain 的概率),第 7-10 行。您只需将术语的出现次数除以 class 中的术语总数(加上一些平滑 -> +1)。这就是为什么你连接 - 能够计算一个术语在 class.
中的所有出现次数
最后,您将这些值插入贝叶斯公式,可以将一些未知文档分类为电影、歌曲、...
更多wiki
我已经了解了朴素贝叶斯 class 化方法(多项式 NB),参考了 Michael Sipser 在他的书中如何描述 "The Theory of Computation"。
我正在查看针对训练和应用多项式 NB 所描述的算法,如下所示:
但是,在解释算法的某些方面时,我感到茫然。例如,在第 6 行的 TRAINMULTINOMIALNB(C, D) 中:
- CONCATENATE_TEXT_OF_ALL_DOCS_IN_CLASS(D, C) 究竟是做什么的?
到目前为止,我的理解如下。假设我们在 class "movies" 和 "songs" 中有三个 - 3 - 文档:
MOVIES
DOC1 = "big fish"
DOC2 = "big lebowski"
DOC3 = "mystic river"
SONGS
DOC1 = "purple rain"
DOC2 = "crying in the rain"
DOC3 = "anaconda"
在应用 CONCATENATE_TEXT_OF_ALL_DOCS_IN_CLASS(D, C) 之后,您是否会留下字符串:
String concatenatedMovies = "big fish big lebowski mystic river"
String concatenatedSongs = "purple rain crying in the rain anaconda"
这样对吗? 非常感谢任何有助于理解这一点的帮助。
最后,你希望能够根据内容对一些文本进行分类。所以你希望能够说出它是歌曲还是电影等
为了使用贝叶斯(或其他方法)做到这一点,您首先使用训练数据构建模型。
首先,通过在第 5 行创建 priors
(class 中的文档/总文档)。
比起你计算 conditional probabilities
(给定 class MOVIES 的单词 fish 的概率,给定 class SONGS 的单词 rain 的概率),第 7-10 行。您只需将术语的出现次数除以 class 中的术语总数(加上一些平滑 -> +1)。这就是为什么你连接 - 能够计算一个术语在 class.
中的所有出现次数
最后,您将这些值插入贝叶斯公式,可以将一些未知文档分类为电影、歌曲、...
更多wiki