具有二进制数据的朴素贝叶斯分类器

Naive bayes classifier with binary data

我熟悉朴素贝叶斯 class 的理解,具有连续和分类输入,class 变量是二元的。但是它如何用于二进制数据输入?

 Example: (0,0,-), (1,1,+)

其中符号是 class 变量。

二进制数据与分类数据本质上是一样的,不是吗?

它有类别 01

有不同类型的朴素贝叶斯分类器:

  1. Gaussian:用于分类,假设特征服从正态分布。

  2. Multinomial:用于离散计数。例如,假设我们有一个文本分类问题。在这里我们可以考虑更进一步的伯努利试验,而不是“文档中出现的单词”,我们有“计算文档中单词出现的频率”,您可以将其视为“结果数的次数 x_i 在 n 次试验中观察到。

  3. Bernoulli:如果您的特征向量是二进制的(即零和一),则二项式模型很有用。一个应用程序是使用“词袋”模型的文本分类,其中 1 和 0 分别是“文档中出现的词”和“文档中没有出现的词”。

所以在这里,伯努利将工作并将它们分类为 0 或 1。

工作详情见:https://nlp.stanford.edu/IR-book/html/htmledition/the-bernoulli-model-1.html