情绪分析训练数据应该均匀分布吗?
Should sentiment analysis training data be evenly distributed?
如果我根据大多数文档都是负面的标记数据集训练情绪分类器,比如 ~95%,是否应该使用相同的负面评论分布来训练分类器?如果没有,"normalize" 数据集的其他选项是什么?
你没有说你有什么类型的分类器,但一般来说你不必规范化训练集的分布。但是,通常数据越多越好,但您应该始终进行盲测以防止over-fitting。
在你的情况下,你将有一个强大的负面评论分类器,除非你有非常大的样本量,否则一个较弱的正面分类器。如果您的样本量足够大,那将无关紧要,因为您已经达到了可能开始 over-fitting 负面数据的地步。
简而言之,在不知道实际算法和数据集的大小以及数据集内的多样性的情况下,不可能肯定地说。
你最好的选择是(随机地)分割掉大约 10% 的训练数据,然后看看分类器在对 90% 的子集进行训练后的表现如何。
如果我根据大多数文档都是负面的标记数据集训练情绪分类器,比如 ~95%,是否应该使用相同的负面评论分布来训练分类器?如果没有,"normalize" 数据集的其他选项是什么?
你没有说你有什么类型的分类器,但一般来说你不必规范化训练集的分布。但是,通常数据越多越好,但您应该始终进行盲测以防止over-fitting。
在你的情况下,你将有一个强大的负面评论分类器,除非你有非常大的样本量,否则一个较弱的正面分类器。如果您的样本量足够大,那将无关紧要,因为您已经达到了可能开始 over-fitting 负面数据的地步。
简而言之,在不知道实际算法和数据集的大小以及数据集内的多样性的情况下,不可能肯定地说。
你最好的选择是(随机地)分割掉大约 10% 的训练数据,然后看看分类器在对 90% 的子集进行训练后的表现如何。