具有二进制数据的朴素贝叶斯分类器
Naive bayes classifier with binary data
我熟悉朴素贝叶斯 class 的理解,具有连续和分类输入,class 变量是二元的。但是它如何用于二进制数据输入?
Example: (0,0,-), (1,1,+)
其中符号是 class 变量。
二进制数据与分类数据本质上是一样的,不是吗?
它有类别 0
和 1
。
有不同类型的朴素贝叶斯分类器:
Gaussian:用于分类,假设特征服从正态分布。
Multinomial:用于离散计数。例如,假设我们有一个文本分类问题。在这里我们可以考虑更进一步的伯努利试验,而不是“文档中出现的单词”,我们有“计算文档中单词出现的频率”,您可以将其视为“结果数的次数 x_i 在 n 次试验中观察到。
Bernoulli:如果您的特征向量是二进制的(即零和一),则二项式模型很有用。一个应用程序是使用“词袋”模型的文本分类,其中 1 和 0 分别是“文档中出现的词”和“文档中没有出现的词”。
所以在这里,伯努利将工作并将它们分类为 0 或 1。
工作详情见:https://nlp.stanford.edu/IR-book/html/htmledition/the-bernoulli-model-1.html
我熟悉朴素贝叶斯 class 的理解,具有连续和分类输入,class 变量是二元的。但是它如何用于二进制数据输入?
Example: (0,0,-), (1,1,+)
其中符号是 class 变量。
二进制数据与分类数据本质上是一样的,不是吗?
它有类别 0
和 1
。
有不同类型的朴素贝叶斯分类器:
Gaussian:用于分类,假设特征服从正态分布。
Multinomial:用于离散计数。例如,假设我们有一个文本分类问题。在这里我们可以考虑更进一步的伯努利试验,而不是“文档中出现的单词”,我们有“计算文档中单词出现的频率”,您可以将其视为“结果数的次数 x_i 在 n 次试验中观察到。
Bernoulli:如果您的特征向量是二进制的(即零和一),则二项式模型很有用。一个应用程序是使用“词袋”模型的文本分类,其中 1 和 0 分别是“文档中出现的词”和“文档中没有出现的词”。
所以在这里,伯努利将工作并将它们分类为 0 或 1。
工作详情见:https://nlp.stanford.edu/IR-book/html/htmledition/the-bernoulli-model-1.html