如何处理 Activeloop Hub 数据集中的 NaN 值?

How to handle NaN values in Activeloop Hub datasets?

我正在努力将数据集转换为 Activeloop Hub format。我正在使用的数据集具有 NaN 值,但我不确定如何使用 Hub 数据集格式处理这些值。

NaN 个值出现在数据集的标签中。

我知道 NaN 值表示数据库中没有该值。此外,从一些阅读中,我知道 sklearn 实现的算法无法在具有此类值的数据集上执行。我正在考虑删除具有 NaN 值的行,但是我不想丢失数据集中的任何信息。

是否有以 Activeloop Hub 格式输入 NaN 值的最佳实践方法?

我使用的是 Hub 版本 2.3.1。

听起来样本没有标签。如果是这样,请为这些标签上传一个空样本。请注意,附加一个空示例与跳过一个示例不同。

如果 NaN 值表示没有标签的图像、视频等,则应将它们作为空样本上传,如下所示:ds.labels.append(np.zeros((0,))).