Google 的 AutoML Table 会在 training/evaluation 之前打乱我的数据样本吗?
Does Google's AutoML Table shuffle my data samples before training/evaluation?
我翻阅了文档,但仍然不知道该服务是否在 training/evaluation 之前对数据进行了混洗。我需要知道这一点,因为数据是时间序列,可以现实地评估早期样本的训练模型。
有人可以告诉我答案或指导我如何解决这个问题吗?
我知道我可以导出评估结果并对其进行调整,但 BigQuery 似乎不尊重原始数据的顺序并且数据中没有绝对时间特征。
不是洗牌而是拆分。
看这里:About controlling data split。它说:
By default, AutoML Tables randomly selects 80% of your data rows for training, 10% for validation, and 10% for testing.
如果您的数据是 time-sensitive,您应该使用 Time column。
通过使用它,AutoML Tables 将使用最早的 80% 的行进行训练,接下来的 10% 的行进行验证,最新的 10% 的行进行测试。
我翻阅了文档,但仍然不知道该服务是否在 training/evaluation 之前对数据进行了混洗。我需要知道这一点,因为数据是时间序列,可以现实地评估早期样本的训练模型。
有人可以告诉我答案或指导我如何解决这个问题吗? 我知道我可以导出评估结果并对其进行调整,但 BigQuery 似乎不尊重原始数据的顺序并且数据中没有绝对时间特征。
不是洗牌而是拆分。
看这里:About controlling data split。它说:
By default, AutoML Tables randomly selects 80% of your data rows for training, 10% for validation, and 10% for testing.
如果您的数据是 time-sensitive,您应该使用 Time column。
通过使用它,AutoML Tables 将使用最早的 80% 的行进行训练,接下来的 10% 的行进行验证,最新的 10% 的行进行测试。