Python/Dill 序列化散列取决于导入的包?
Python/Dill serialization hash depending on imported packages?
考虑以下代码:
from os.path import join
import dill
from tempfile import TemporaryDirectory
import hashlib
def filehash(path):
with open(path, 'rb') as f:
return hashlib.sha256(f.read()).hexdigest()
def func(a,b):
return a + b
with TemporaryDirectory() as td:
temp = join(td, "func.tmp")
with open(temp, "wb") as f:
dill.dump(func, f)
print(filehash(temp))
这将一个简单的函数 func()
序列化到磁盘,然后打印结果文件的哈希值。
现在,在第一行之前添加一些不会使用的包的导入语句,例如import numpy
并再次执行整个程序。现在文件哈希不同了。
有人能告诉我这是为什么吗?
当 Dill pickle 函数时,它必须保存函数可以访问的范围。因此,当您添加导入时,保存的内容也会发生变化,因为它包括被导入更改的模块范围。
如果您不想这样,我建议您将要钻取的功能放在它们自己的模块中。这样他们的模块范围就不会包含他们不需要访问的任何东西。
我也建议不要依赖于产生相同莳萝的相同代码。
考虑以下代码:
from os.path import join
import dill
from tempfile import TemporaryDirectory
import hashlib
def filehash(path):
with open(path, 'rb') as f:
return hashlib.sha256(f.read()).hexdigest()
def func(a,b):
return a + b
with TemporaryDirectory() as td:
temp = join(td, "func.tmp")
with open(temp, "wb") as f:
dill.dump(func, f)
print(filehash(temp))
这将一个简单的函数 func()
序列化到磁盘,然后打印结果文件的哈希值。
现在,在第一行之前添加一些不会使用的包的导入语句,例如import numpy
并再次执行整个程序。现在文件哈希不同了。
有人能告诉我这是为什么吗?
当 Dill pickle 函数时,它必须保存函数可以访问的范围。因此,当您添加导入时,保存的内容也会发生变化,因为它包括被导入更改的模块范围。
如果您不想这样,我建议您将要钻取的功能放在它们自己的模块中。这样他们的模块范围就不会包含他们不需要访问的任何东西。
我也建议不要依赖于产生相同莳萝的相同代码。