用于无文本分类的朴素贝叶斯分类

Naive bayes classification for NO text-classification

为文本文档建模特征 space 非常容易。
例如,我可以将文本(训练数据)中的每个单词作为特征。
如果一个特定的词(例如"dog")在(分类的)训练示例中遇到多次(例如分类为垃圾邮件),那么我可以用这个词来分类新数据。

如果我的特征不仅仅是单词,我该如何建模?
在我的具体情况下,我有姓名、年龄和家庭人数等特征。
我不认为是在我的特征向量中输入每个可能年龄的正确方法。
如果我假设人类不迟于 100 死,我的年龄特征只有 100 位数字。
所以我考虑了数据分箱:将特征 "age" 划分为 1-20 岁、21-40 岁、41-60 岁,...
要为 30 岁的人建模,我现在只需要 5 位数字 (01000)。

是否有更好的方法来模拟这些特征?

我好像找到了 answer1 answer2。 因此,可以使用数据分箱或使用适合连续特征的(正态)分布对特征进行建模。