如何从使用 Azure Spark 创建的 parquet 文件在 Azure ML studio 中(通过 GUI)创建 Azure 数据集

How can I create an Azure dataset in Azure ML studio (through the GUI) from a parquet file created with Azure Spark

我正在尝试将文件作为数据集加载到 Azure ML Studio 的 GUI 中。这些镶木地板文件是通过 Spark 创建的。

在我的文件夹中,Spark 创建了诸如“_SUCCESS”或“_committed_8998000”之类的文件。

A​​zure ML Studio 无法读取或忽略它们并告诉我:

The provided file(s) have invalid byte(s) for the specified file encoding.
{
  "message": " "
}

我选择了“忽略不匹配的文件路径”,但它仍然不起作用。

如果我删除“_SUCCESS”和其他 Spark 文件,它会起作用。

感谢您的反馈。您可以在路径中使用通配符。例如path = '**/*.parquet' 到 select 仅 parquet 文件

这是 Azure ML Studio 的问题。它可能会尝试解析和解码默认情况下写入到 Parquet 文件旁边的 CRC 文件。

现在的解决方案是删除这些文件,希望 Microsoft 最终能解决这个问题。