Ground Truth 和训练数据集

Ground Truth and training data set

我想知道训练数据集、测试数据集和真值之间的关系。我分别知道每一个的含义,但我看不出它们之间的关系,尤其是基本事实和训练数据。

您的训练数据就是您用来训练分类器的数据。

然后您在测试集上测试模型的准确性。

Ground truth 是指您拥有的每个训练样本的标签,即您知道每个训练样本属于哪个category/outcome

术语 'ground truth' 的另一个重要用途是在回归问题中,了解要建模的数据的真实确定性成分非常有价值。

Ground Truth 是已经观察或测量的事实数据,可以进行客观分析。还没有推断出来。如果数据基于假设、受制于意见或供讨论,那么根据定义,这不是地面实况数据。

你使用数据科学解决问题的能力在很大程度上取决于你如何构建问题并毫不含糊地辨别,如果你能建立 Ground Truth。更多信息详见此处 The Importance of Ground Truth in Data Science

假设我们需要训练一台机器来区分苹果和橙子。机器学习的方法是 "show" 机器一些橙子和苹果的例子(训练集),根据这些例子它识别其余的是橙子还是苹果(仅限于苹果和橙子!)。现在,ground-truth 是你判断为苹果和橘子的标签(在训练集中)。