读取镶木地板文件失败

Failure reading parquet files

Azure ML 无法从 parquet 文件读取表格数据集,许多 parquet 文件。

创建数据集

from azureml.data.datapath import DataPath
datastore_path = [DataPath(datastore, 'churn')]
tabular_dataset = Dataset.Tabular.from_parquet_files(path=datastore_path)

添加扩展:*.parquet:

from azureml.data.datapath import DataPath
datastore_path = [DataPath(datastore, 'churn/*.parquet')]
tabular_dataset = Dataset.Tabular.from_parquet_files(path=datastore_path)

不立即将所有数据读入内存的其他方法是在 TabularDataset 上使用 skip()take() 一次仅请求部分源数据。 或者将 Parquet 文件挂载为 FileDataset,然后为训练脚本中的文件子集构建单独的 TabularDataset。

这里有一个示例笔记本供您参考:https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/parallel-run/tabular-dataset-inference-iris.ipynb