将来自多个文件夹和子文件夹的多个 excel 文件合并到一个 pandas 数据帧中
Combine several excel files from multiple folders and subfolders into one pandas dataframe
我的主文件夹名为 "Data"。在里面,我有 20 个文件夹,标记为 1 到 20。在这 20 个子文件夹中的每个子文件夹中,我还有另外 1 到 5 个子文件夹,其中一个名为 "test_results"(我感兴趣的那个)。在那个 test_result 文件夹中,我有几个文件,范围从 .jpeg、.csv、.xlxs。我需要使用 .xlxs 文件。如何仅检索父文件夹 "Data" 中的 .xlxs 文件并将它们连接到一个数据框中以便进行分析?
当所有文件都位于一个文件夹中时,我知道如何执行此操作,但事实上它们位于子文件夹中并与其他类型的文件混合,这增加了它的复杂性,我无法弄清楚。
使用pathlib模块。
演示:
from pathlib import Path
p = Path(r'/path/to/Data')
df = pd.concat([pd.read_excel(f) for f in p.glob('**/test_results/*.xlsx')],
ignore_index=True)
我的主文件夹名为 "Data"。在里面,我有 20 个文件夹,标记为 1 到 20。在这 20 个子文件夹中的每个子文件夹中,我还有另外 1 到 5 个子文件夹,其中一个名为 "test_results"(我感兴趣的那个)。在那个 test_result 文件夹中,我有几个文件,范围从 .jpeg、.csv、.xlxs。我需要使用 .xlxs 文件。如何仅检索父文件夹 "Data" 中的 .xlxs 文件并将它们连接到一个数据框中以便进行分析?
当所有文件都位于一个文件夹中时,我知道如何执行此操作,但事实上它们位于子文件夹中并与其他类型的文件混合,这增加了它的复杂性,我无法弄清楚。
使用pathlib模块。
演示:
from pathlib import Path
p = Path(r'/path/to/Data')
df = pd.concat([pd.read_excel(f) for f in p.glob('**/test_results/*.xlsx')],
ignore_index=True)