在采集小样本之前或之后进行单热编码?
One-hot encode before or after taking a small sample?
我第一次使用相对较大的数据集 (50gb)。
有 30,000 类 和 100,000 个标签(倾斜数据)。
我正在尝试在 10% 的数据上训练我的 CNN 模型以进行测试。
我对标签的热编码有疑问。
标签从 0 到 29,999(整数),因此在我的 10% 数据集中,我有一个包含 10,000 个标签的数组,随机值从 0 到 29,999。
发生的事情是 keras to categorical 创建了一个长度 = max(labels) 的向量矩阵。
例如,如果在我的 10% 数据集中,最大标签是 25,000,那么一次编码将导致形状 (10000, 250000) 是错误的。因为我在这个子数据集中只有20个标签。
如何对这个标签进行一次热编码?
不知道自己说的够不够清楚,第一次做大数据有点懵。
在采集较小的样本之前,您绝对应该对目标进行单热编码。那就没问题了。
我第一次使用相对较大的数据集 (50gb)。 有 30,000 类 和 100,000 个标签(倾斜数据)。 我正在尝试在 10% 的数据上训练我的 CNN 模型以进行测试。
我对标签的热编码有疑问。 标签从 0 到 29,999(整数),因此在我的 10% 数据集中,我有一个包含 10,000 个标签的数组,随机值从 0 到 29,999。 发生的事情是 keras to categorical 创建了一个长度 = max(labels) 的向量矩阵。
例如,如果在我的 10% 数据集中,最大标签是 25,000,那么一次编码将导致形状 (10000, 250000) 是错误的。因为我在这个子数据集中只有20个标签。
如何对这个标签进行一次热编码?
不知道自己说的够不够清楚,第一次做大数据有点懵。
在采集较小的样本之前,您绝对应该对目标进行单热编码。那就没问题了。