将来自多个文件夹和子文件夹的多个 excel 文件合并到一个 pandas 数据帧中

Question

我的主文件夹名为 "Data"。在里面，我有 20 个文件夹，标记为 1 到 20。在这 20 个子文件夹中的每个子文件夹中，我还有另外 1 到 5 个子文件夹，其中一个名为 "test_results"（我感兴趣的那个）。在那个 test_result 文件夹中，我有几个文件，范围从 .jpeg、.csv、.xlxs。我需要使用 .xlxs 文件。如何仅检索父文件夹 "Data" 中的 .xlxs 文件并将它们连接到一个数据框中以便进行分析？

当所有文件都位于一个文件夹中时，我知道如何执行此操作，但事实上它们位于子文件夹中并与其他类型的文件混合，这增加了它的复杂性，我无法弄清楚。

Answer 1

使用pathlib模块。

演示：

from pathlib import Path

p = Path(r'/path/to/Data')

df = pd.concat([pd.read_excel(f) for f in p.glob('**/test_results/*.xlsx')],
               ignore_index=True)

将来自多个文件夹和子文件夹的多个 excel 文件合并到一个 pandas 数据帧中

Combine several excel files from multiple folders and subfolders into one pandas dataframe

python

excel

glob

dataframe

pandas