如何用大数据集查找和替换 python 中的字符串

How to find and replace a string in python with a large data set

我正在尝试更改大约 4GB 的大文件的分隔符。分隔符当前是“#|#”,我希望分隔符是“|”。

我尝试进行替换和查找,但由于文件很大,我的计算机没有足够的内存来完成代码。我想知道是否有一种方法可以逐行读取文件而不是节省内存。

text = open("C:\test.txt", "r")
text = ''.join([i for i in text]).replace("#|#", "|")
x = open("C:\test.txt","w")
x.writelines(text)
x.close()

这是文件当前的样子:

场#|#场#|#场#|#

我希望它看起来像

字段|领域 |字段 |

尝试使用generator而不是将整个文件读入内存:

text = open("C:\test.txt", "r")
text = ''.join((i for i in text)).replace("#|#", "|")
x = open("C:\test.txt","w")
x.writelines(text)
x.close()

(i for i in text) 语法允许在将所有行加载到内存时延迟生成行,而不是 [i for i in text]

当然可以逐行写。 事实上,一般来说,文件处理以更惯用的方式使用文件对象作为上下文管理器和行迭代器更实用:

import shutil

with open("C:\test.txt", "r") as long_file, \
     open("C:\test_replaced.tmp", "w") as replacement:
    for line in long_file:
        replacement.write(line.replace("#|#", "|"))

shutil.move("C:\test_replaced.tmp", "C:\test.txt")

只要您可以将临时文件写入磁盘而不会造成麻烦,此方法就有效。 我没有使用标准库对文件进行就地更改的良好、简洁的解决方案,但这应该已经比迭代同一文件两次并将整个内容读入内存更快、内存效率更高。