在 Azure ML Python 脚本中读取多个 CSV 文件
Read multiple CSV files in Azure ML Python Script
我有 4 个 csv 文件,它们是 azure ML 中 python 脚本的输入,但小部件只有 2 个数据帧输入和 zip 文件的第三个输入。我试图将 csv 文件放在压缩文件夹中并将其连接到脚本的第三个输入,但这也不起作用:
我想知道如何在 python 脚本中读取多个 csv 文件。
正如@MattR 所说,您只需将 4 个 csv 文件直接附加到 zip 文件中即可 theano_keras2.zip
,无需将这些 csv 文件打包为单独的 zip 文件进行附加。然后就可以在模块Execute Python Script
中使用这些csv文件了,csv文件路径是相对于theano_keras2.zip
.
目录的根目录
希望对您有所帮助。
下面是其他人在上面概述的方法的更多详细信息。尝试用以下内容替换 "Execute Python Script" 模块中当前的代码:
import pandas as pd
import os
def azureml_main(dataframe1=None, dataframe2=None):
print(os.listdir('.'))
return(pd.DataFrame([]))
运行实验后,点击模块。现在右侧栏中应该有一个 "View output log" link。我得到如下内容:
[Information] Started in [C:\temp]
[Information] Running in [C:\temp]
[Information] Executing 4af67c05ba02417a980f6a16e84e61dc with inputs [] and generating outputs ['.maml.oport1']
[Information] Extracting Script Bundle.zip to .\Script Bundle
[Information] File Name Modified Size
[Information] temp.csv 2016-05-06 13:16:56 52
[Information] [ READING ] 0:00:00
[Information] ['4af67c05ba02417a980f6a16e84e61dc.py', 'Script Bundle', 'Script Bundle.zip']
这告诉我,我的 zip 文件的内容已被提取到 C:\temp\Script Bundle
文件夹中。在我的例子中,zip 文件只包含一个 CSV 文件,temp.csv
:您的输出可能有四个文件。您可能还压缩了一个包含四个文件的文件夹,在这种情况下,文件路径会更深一层。如有必要,您可以使用 os.listdir()
进一步探索您的目录结构。
一旦您认为您知道 CSV 文件的完整文件路径,请编辑您的执行 Python 脚本模块的代码以加载它们,例如:
import pandas as pd
def azureml_main(dataframe1 = None, dataframe2 = None):
df = pd.read_csv('C:/temp/Script Bundle/temp.csv')
# ...load other files and merge into a single dataframe...
return(df)
希望对您有所帮助!
我有 4 个 csv 文件,它们是 azure ML 中 python 脚本的输入,但小部件只有 2 个数据帧输入和 zip 文件的第三个输入。我试图将 csv 文件放在压缩文件夹中并将其连接到脚本的第三个输入,但这也不起作用:
我想知道如何在 python 脚本中读取多个 csv 文件。
正如@MattR 所说,您只需将 4 个 csv 文件直接附加到 zip 文件中即可 theano_keras2.zip
,无需将这些 csv 文件打包为单独的 zip 文件进行附加。然后就可以在模块Execute Python Script
中使用这些csv文件了,csv文件路径是相对于theano_keras2.zip
.
希望对您有所帮助。
下面是其他人在上面概述的方法的更多详细信息。尝试用以下内容替换 "Execute Python Script" 模块中当前的代码:
import pandas as pd
import os
def azureml_main(dataframe1=None, dataframe2=None):
print(os.listdir('.'))
return(pd.DataFrame([]))
运行实验后,点击模块。现在右侧栏中应该有一个 "View output log" link。我得到如下内容:
[Information] Started in [C:\temp]
[Information] Running in [C:\temp]
[Information] Executing 4af67c05ba02417a980f6a16e84e61dc with inputs [] and generating outputs ['.maml.oport1']
[Information] Extracting Script Bundle.zip to .\Script Bundle
[Information] File Name Modified Size
[Information] temp.csv 2016-05-06 13:16:56 52
[Information] [ READING ] 0:00:00
[Information] ['4af67c05ba02417a980f6a16e84e61dc.py', 'Script Bundle', 'Script Bundle.zip']
这告诉我,我的 zip 文件的内容已被提取到 C:\temp\Script Bundle
文件夹中。在我的例子中,zip 文件只包含一个 CSV 文件,temp.csv
:您的输出可能有四个文件。您可能还压缩了一个包含四个文件的文件夹,在这种情况下,文件路径会更深一层。如有必要,您可以使用 os.listdir()
进一步探索您的目录结构。
一旦您认为您知道 CSV 文件的完整文件路径,请编辑您的执行 Python 脚本模块的代码以加载它们,例如:
import pandas as pd
def azureml_main(dataframe1 = None, dataframe2 = None):
df = pd.read_csv('C:/temp/Script Bundle/temp.csv')
# ...load other files and merge into a single dataframe...
return(df)
希望对您有所帮助!