如何从单独的数据帧中指定训练集和测试集?

How can I specify a training set and test set from separate dataframes?

我有一个混合了新闻文章和 Facebook 帖子(全文)的数据框,并带有相应的标签(所有文本的一组标签 - 文章和帖子)。但是,我想在两种类型的文本(文章和帖子)上训练我的分类器,但我的测试集中只有 facebook 帖子。无论如何指定一组行(按 'source' 列分组)从中提取测试集?

我正在使用

sklearn.model_selection import train_test_split

和用于分类模型的简单转换器。

谢谢!

拆分是通过以下方式完成的:

# create X
X = df[<columns>]
# create y
y = df[<one column>]
# split to train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123, stratify = y)

如果你有两个数据帧,你需要先合并它们:

df = df1.append(df2)