Azure ML 数据集版本控制:如果它指向相同的数据有什么不同?
Azure ML Dataset Versioning: What is Different if it Points to the Same Data?
上下文
在 AzureML 中,我们在 运行 管道时遇到错误。它在 to_pandas_dataframe
上失败,因为特定数据集“无法在流结束后读取”。就其本身而言,这似乎是正在注册的镶木地板文件的问题,可能是特殊字符被误解了。
但是,当我们显式加载此数据集的先前“版本”(指向完全相同的数据位置)时,它会按预期工作。在文档 (here) 中,Azure 表示“当您从数据集中加载数据时,始终会加载数据集引用的当前数据内容”。这让我觉得具有相同模式的新版本数据集将会是相同的。
问题
当数据集版本 与指向同一位置的另一个版本 有什么不同?它只是模式定义吗?
基于这些差异,有没有办法弄清楚为什么一个版本会成功而另一个版本会失败?
尝试次数
- 两个版本的架构完全相同。我们可以在 AzureML 中对两者进行概要分析,并且所有字段具有相同的概要信息。
正如@Anand Sowmithiran 在评论部分的正确建议,这看起来更像是 SDK 的错误。
你可以加注Azure support ticket
上下文
在 AzureML 中,我们在 运行 管道时遇到错误。它在 to_pandas_dataframe
上失败,因为特定数据集“无法在流结束后读取”。就其本身而言,这似乎是正在注册的镶木地板文件的问题,可能是特殊字符被误解了。
但是,当我们显式加载此数据集的先前“版本”(指向完全相同的数据位置)时,它会按预期工作。在文档 (here) 中,Azure 表示“当您从数据集中加载数据时,始终会加载数据集引用的当前数据内容”。这让我觉得具有相同模式的新版本数据集将会是相同的。
问题
当数据集版本 与指向同一位置的另一个版本 有什么不同?它只是模式定义吗?
基于这些差异,有没有办法弄清楚为什么一个版本会成功而另一个版本会失败?
尝试次数
- 两个版本的架构完全相同。我们可以在 AzureML 中对两者进行概要分析,并且所有字段具有相同的概要信息。
正如@Anand Sowmithiran 在评论部分的正确建议,这看起来更像是 SDK 的错误。
你可以加注Azure support ticket