从较大的应用程序集中挑选训练集

Picking a training set from the larger application set

machine-learning
data-science

我正在尝试对 dataset.But 执行情感分析，但没有可训练我的分类器的现有语料库与我要分析的数据集相似。我的问题如下：我可以使用该数据的随机采样子集 training/validation 阶段，然后使用经过训练的分类器对更大的数据集进行分析吗？我计划通过向训练集添加一些与应用程序数据集相似但不是来自该集的数据点来引入一些可变性。这是一种有效的方法吗？

您正在寻找的是交叉验证的标准程序。在交叉验证期间，您将数据拆分为（假设）80%-20% 的训练测试数据，并进行 5-10 次（取决于您拥有的数据大小）不同的拆分。所以我会建议你保留数据的一个子集，然后对这个子集进行交叉验证。这是训练模型的最佳方式。

从较大的应用程序集中挑选训练集

Picking a training set from the larger application set

machine-learning

data-science