如何在机器学习训练集中结合文本和数字特征?

How do I combine text and numerical features in training set for machine learning?

我正在尝试根据数字特征和文本特征预测社交网络中 post 的点赞数。现在我有了具有所需功能的数据框,但我不知道如何处理 posts 文本数据。我应该矢量化 it/do smth else 以获得合适的火车矩阵吗?我将使用 sklearn 中的 LinearSVC 进行分析。

有很多不同的方法可以将文本特征转换为数字特征。

最常见的方法之一是词袋方法。将文本转换为包含每个单词出现的数组的位置。

如果您使用的是 scikit-learn,我建议您阅读他们的 Text Feature extraction User Guide

另请参阅 NLTK toolkit 以了解处理文本数据的更复杂方法。