在 Azure ML Python 脚本中读取多个 CSV 文件

Question

我有 4 个 csv 文件，它们是 azure ML 中 python 脚本的输入，但小部件只有 2 个数据帧输入和 zip 文件的第三个输入。我试图将 csv 文件放在压缩文件夹中并将其连接到脚本的第三个输入，但这也不起作用：

我想知道如何在 python 脚本中读取多个 csv 文件。

Answer 1

正如@MattR 所说，您只需将 4 个 csv 文件直接附加到 zip 文件中即可 theano_keras2.zip，无需将这些 csv 文件打包为单独的 zip 文件进行附加。然后就可以在模块Execute Python Script中使用这些csv文件了，csv文件路径是相对于theano_keras2.zip.

希望对您有所帮助。

Answer 2

下面是其他人在上面概述的方法的更多详细信息。尝试用以下内容替换 "Execute Python Script" 模块中当前的代码：

import pandas as pd
import os
def azureml_main(dataframe1=None, dataframe2=None):
    print(os.listdir('.'))
    return(pd.DataFrame([]))

运行实验后，点击模块。现在右侧栏中应该有一个 "View output log" link。我得到如下内容：

[Information]         Started in [C:\temp]
[Information]         Running in [C:\temp]
[Information]         Executing 4af67c05ba02417a980f6a16e84e61dc with inputs [] and generating outputs ['.maml.oport1']
[Information]         Extracting Script Bundle.zip to .\Script Bundle
[Information]         File Name                                             Modified             Size
[Information]         temp.csv                                       2016-05-06 13:16:56           52
[Information]         [ READING ] 0:00:00
[Information]         ['4af67c05ba02417a980f6a16e84e61dc.py', 'Script Bundle', 'Script Bundle.zip']

这告诉我，我的 zip 文件的内容已被提取到 C:\temp\Script Bundle 文件夹中。在我的例子中，zip 文件只包含一个 CSV 文件，temp.csv：您的输出可能有四个文件。您可能还压缩了一个包含四个文件的文件夹，在这种情况下，文件路径会更深一层。如有必要，您可以使用 os.listdir() 进一步探索您的目录结构。

一旦您认为您知道 CSV 文件的完整文件路径，请编辑您的执行 Python 脚本模块的代码以加载它们，例如：

import pandas as pd
def azureml_main(dataframe1 = None, dataframe2 = None):
    df = pd.read_csv('C:/temp/Script Bundle/temp.csv')
    # ...load other files and merge into a single dataframe...
    return(df)

希望对您有所帮助！

在 Azure ML Python 脚本中读取多个 CSV 文件

Read multiple CSV files in Azure ML Python Script

python

csv

azure

azure-machine-learning-studio