Azure ML 数据集版本控制:如果它指向相同的数据有什么不同?

Azure ML Dataset Versioning: What is Different if it Points to the Same Data?

上下文

在 AzureML 中,我们在 运行 管道时遇到错误。它在 to_pandas_dataframe 上失败,因为特定数据集“无法在流结束后读取”。就其本身而言,这似乎是正在注册的镶木地板文件的问题,可能是特殊字符被误解了。

但是,当我们显式加载此数据集的先前“版本”(指向完全相同的数据位置)时,它会按预期工作。在文档 (here) 中,Azure 表示“当您从数据集中加载数据时,始终会加载数据集引用的当前数据内容”。这让我觉得具有相同模式的新版本数据集将会是相同的。

问题

  1. 当数据集版本 与指向同一位置的另一个版本 有什么不同?它只是模式定义吗?

  2. 基于这些差异,有没有办法弄清楚为什么一个版本会成功而另一个版本会失败?

尝试次数

正如@Anand Sowmithiran 在评论部分的正确建议,这看起来更像是 SDK 的错误。

你可以加注Azure support ticket