根据姓名对用户性别进行分类的最佳方法是什么?

what are the best methods to classify the user gender based on names?

如果你检查我的 github,我已经成功地实施了 CNN,KNN class 化信号故障。为此,我对信号进行了很少的降维预处理并将其提供给网络,使用它的 class 信息我训练了网络,稍后用测试样本测试训练的网络以确定 class 并计算了准确度。

我的问题是如何将文本信息输入到 CNN 或任何其他网络。对于输入,我从 kaggle 中获取了 Twitter 数据库,我选择了 2 个包含姓名和性别信息的列。我研究了一些算法,这些算法 class 根据他们的博客数据确定性别。我不清楚我是如何实现我的数据的(在我的例子中,如果我只想class仅使用名称进行验证)。

在一些例子中,据我所知,我看到了计算文本的稀疏矩阵,但是对于 20,000 个样本,稀疏矩阵对于作为输入来说是巨大的。我在实施 CNN 架构(我想实施是因为不需要任何功能)或任何其他网络方面没有问题。我被困在这里,如何向网络输入数据。我可以进行什么样的对话,以便我可以考虑使用姓名和性别信息来训练网络?

如果我的思路有误,请给我建议哪种算法是最好的方法。深度学习或任何其他方法都可以!

您可以使用 character-level 嵌入(即您输入的 class 是不同的字符,因此 'a' 是 class 1,'b' 是 class 2 等等)。 One-hot 对 classes 进行编码,然后将它们传递给嵌入层,将为每个字符生成唯一的表示形式。然后可以将字符串视为 character-sequence(或等同于 vector-sequence),它可以用作循环网络或卷积网络的输入。如果您想阅读,Kim 等人的 paper。将为您提供所有必要的理论 backbone.