用于改进推荐系统的多语言自由文本项文本分类

Multilingual free-text-items Text Classification for improving a recommender system

为了改进买家Material组的推荐系统,我们公司愿意使用客户历史支出数据训练模型。该模型应根据历史 "Short text descriptions" 进行训练以预测适当的 BMG。数据集有超过 500.000 行,文本描述是多语言的(最多 40 个字符)。

1.Question:如果我考虑到描述是多种语言的事实,我可以使用监督学习吗?如果是,多项式朴素贝叶斯或 SVM 等经典方法是否合适?

2.Question:如果我想改进第一个模型以防它表现不佳,并使用无监督的多语言嵌入来构建分类器。我以后如何在数字标签上训练这个分类器?

如果您有其他想法或方法,请随意:)。 (这是一个简单的文本分类问题)

Can I use supervised learning if i consider the fact that the descriptions are in multiple languages?

是的,这不是问题,只是它会使您的数据更加稀疏。如果您实际上每个项目只有 40 个字符(不是 40 个单词吗?),您可能没有足够的数据。监督学习的主要挑战还在于你是否有数据标签。

If Yes, are classic approaches like multinomial naive bayes or SVM suitable?

它们会一如既往地工作,尽管如今构建矢量表示可能是更好的选择。

If i want to improve the first model in case it is not performing well, and use unsupervised multilingual emdedding to build a classifier. how can i train this classifier on the numerical labels later?

假设数字标签是原始数据上的标签,您可以将它们添加为标记,如 LABEL001,如果您想制作无监督推荐系统,模型可以学习它们的表示。


老实说,这些天我不会从朴素贝叶斯或经典模型开始,我会直接使用词向量作为聚类的第一个测试。使用 fasttext 或 word2vec 非常简单。主要问题是,如果您真的每个项目只有 40 个字符,那么可能没有足够的数据来进行有用的聚类。