如何创建比较两个目录的文件夹和子文件夹的 os.walk() 函数?
How to create a os.walk() function which compares the folders and subfolders of two directories?
这是我的问题:假设我想创建一个文件同步功能,遍历两个相似目录的所有文件夹和子文件夹,并检测这两个目录的所有公共 folders/subfolders。我尝试将 os.walk 模块与 filecmp 模块结合起来。到目前为止,我的代码是这样的:
import filecmp
import os
src=r"C:\Users\j2the\Documents\Test3"
dst=r"C:\Users\j2the\Documents\Test4"
comparison = filecmp.dircmp(dst, src)
for dirpath,dirnames,filenames in os.walk(src):
for folders in dirnames:
if folders in comparison.common_dirs:
print(folders)
src_folder=os.path.abspath(os.path.join(dirpath,folders))
dst_folder=os.path.abspath(os.path.join(dst,folders))
folder_comparison = filecmp.dircmp(dst_folder, src_folder)
for dirpath1,dirnames1,filenames1 in os.walk(src_folder):
for subfolders in dirnames1:
if subfolders in folder_comparison.common_dirs:
print(subfolders)
src_subfolder=os.path.abspath(os.path.join(dirpath1,subfolders))
dst_subfodler=os.path.abspath(os.path.join(dst_folder,subfolders))
subfolder_comparison=filecmp.dircmp(dst_subfodler,src_subfolder)
这是一个非常简单的代码。但是,此代码仅适用于具有最大值的目录。 2 个子文件夹。如果我想分析包含更多子文件夹的目录,我将不得不在我的代码中添加大量的嵌套循环。当然还有另一种方法可以做到这一点,对吧?我正在考虑创建一个 while 循环,不断遍历每个子文件夹并比较它们,直到没有子文件夹为止,但我就是不知道该怎么做。任何 help/input 将不胜感激!
这是一个有效的简单技巧(在 mac 上测试)。 os.walk 函数 returns 目录树的生成器,可以生成一个列表。但是,由于根目录名称可能不同,我删除了每个列表项中的第一个元素。
编辑:这只比较目录结构,不比较内容。
res1 = [r[1:] for r in os.walk(src)]
res2 = [r[1:] for r in os.walk(dst)]
comparison = res1 == res2
您不需要 filecmp.dircmp
。相反,使用要比较的两个目录对 os.walk
进行两次调用,zip
两个生成器的输出,并在输出的两个子目录上使用集交集以找到共同的子目录目录。
请注意,使递归遍历工作的关键是对两个生成器返回的子目录执行就地替换,以便仅保留两个当前目录共有的子目录以进行更深入遍历和进一步比较:
import os
for (root1, dirs1, _), (root2, dirs2, _) in zip(os.walk('dir1'), os.walk('dir2')):
dirs1[:] = dirs2[:] = set(dirs1).intersection(dirs2)
for common_dir in dirs1:
print('Common sub-directory of {} and {}: {}'.format(root1, root2, common_dir))
来自os.walk
的文档:
When topdown
is True
, the caller can modify the dirnames
list in-place
(perhaps using del
or slice assignment), and walk()
will only recurse
into the subdirectories whose names remain in dirnames
; this can be
used to prune the search...
这是我的问题:假设我想创建一个文件同步功能,遍历两个相似目录的所有文件夹和子文件夹,并检测这两个目录的所有公共 folders/subfolders。我尝试将 os.walk 模块与 filecmp 模块结合起来。到目前为止,我的代码是这样的:
import filecmp
import os
src=r"C:\Users\j2the\Documents\Test3"
dst=r"C:\Users\j2the\Documents\Test4"
comparison = filecmp.dircmp(dst, src)
for dirpath,dirnames,filenames in os.walk(src):
for folders in dirnames:
if folders in comparison.common_dirs:
print(folders)
src_folder=os.path.abspath(os.path.join(dirpath,folders))
dst_folder=os.path.abspath(os.path.join(dst,folders))
folder_comparison = filecmp.dircmp(dst_folder, src_folder)
for dirpath1,dirnames1,filenames1 in os.walk(src_folder):
for subfolders in dirnames1:
if subfolders in folder_comparison.common_dirs:
print(subfolders)
src_subfolder=os.path.abspath(os.path.join(dirpath1,subfolders))
dst_subfodler=os.path.abspath(os.path.join(dst_folder,subfolders))
subfolder_comparison=filecmp.dircmp(dst_subfodler,src_subfolder)
这是一个非常简单的代码。但是,此代码仅适用于具有最大值的目录。 2 个子文件夹。如果我想分析包含更多子文件夹的目录,我将不得不在我的代码中添加大量的嵌套循环。当然还有另一种方法可以做到这一点,对吧?我正在考虑创建一个 while 循环,不断遍历每个子文件夹并比较它们,直到没有子文件夹为止,但我就是不知道该怎么做。任何 help/input 将不胜感激!
这是一个有效的简单技巧(在 mac 上测试)。 os.walk 函数 returns 目录树的生成器,可以生成一个列表。但是,由于根目录名称可能不同,我删除了每个列表项中的第一个元素。
编辑:这只比较目录结构,不比较内容。
res1 = [r[1:] for r in os.walk(src)]
res2 = [r[1:] for r in os.walk(dst)]
comparison = res1 == res2
您不需要 filecmp.dircmp
。相反,使用要比较的两个目录对 os.walk
进行两次调用,zip
两个生成器的输出,并在输出的两个子目录上使用集交集以找到共同的子目录目录。
请注意,使递归遍历工作的关键是对两个生成器返回的子目录执行就地替换,以便仅保留两个当前目录共有的子目录以进行更深入遍历和进一步比较:
import os
for (root1, dirs1, _), (root2, dirs2, _) in zip(os.walk('dir1'), os.walk('dir2')):
dirs1[:] = dirs2[:] = set(dirs1).intersection(dirs2)
for common_dir in dirs1:
print('Common sub-directory of {} and {}: {}'.format(root1, root2, common_dir))
来自os.walk
的文档:
When
topdown
isTrue
, the caller can modify thedirnames
list in-place (perhaps usingdel
or slice assignment), andwalk()
will only recurse into the subdirectories whose names remain indirnames
; this can be used to prune the search...