pypy pickled 不能被 cpython unpickled
pypy pickled cannot be unpickled by cpython
我有一段代码被 pypy pickle,但是,pypy 添加了自己的操作码来扩展 cpython 操作码,它不能被 cpython 解开(引发 SystemError:未知操作码)。
由特殊操作码LOOKUP_METHOD & CALL_METHOD引起,参考the pypy doc
我想知道如何让 pypy 生成完全标准的 cpython 字节码而不是自定义字节码。我查看了文档,找到了 PYTHONOPTIMIZE 环境变量,并将其设置为 0,但它没有用。
p.s。我不能改变 unpickle 的一面,它必须是 cpython 2.7。
更新 1
正如评论所说,cpython 不能 pickle 或 unpickle 代码对象,这是正确的。
我正在使用 cloudpickle 库来 pickle 和 unpickle 函数对象,
而在cloudpickle库中,代码对象可以被pickle。
问题是co_code 属性在pypy中不一样,
它包含仅在 pypy 中定义的特殊操作码。
更新 2
我采用了@ecatmur 提供的方法,除了BUILD_LIST_FROM_ARG.
,其他都很完美
下面是我的代码:
class my_func(object):
def __init__(self, resources):
self.file_resource = resources[0]
self.table_resource = resources[1]
self.valid_ids = [int(l) for l in self.file_resource]
self.valid_ids.extend([int(l[0]) for l in self.table_resource]) # issue line
在pypy端修改cloudpickle之后,我在cpython端unpikle:
c = pickle.loads('**the pypy pickled code**')
c([['0'], [['1']]])
但出现错误:
in __init__(self, resources)
453
454 self.valid_ids = [int(l) for l in self.file_resource]
--> 455 self.valid_ids.extend([int(l[0]) for l in self.table_resource])
456
457 def __call__(self, arg):
TypeError: 'int' object has no attribute '__getitem__'
我通过dis.dis查了下字节码,好有线,好像挺对的
如果我用 cpython 进行 pickle,unpickle 的一面就可以正常工作。
对更新 2 有什么想法吗?
没有任何选项可以禁用 LOOKUP_METHOD
优化;您可以尝试禁用 astcompiler.PythonCodeGenerator._optimize_method_call()
但我认为在您 pickle 时修补字节码会更安全。幸运的是,这很容易,因为操作码采用相同的参数并出现在相应的位置:
from cloudpickle import CloudPickler, PY3
import opcode
HAVE_ARGUMENT = opcode.HAVE_ARGUMENT
NOP = opcode.opmap['NOP']
LOOKUP_METHOD = opcode.opmap['LOOKUP_METHOD']
CALL_METHOD = opcode.opmap['CALL_METHOD']
LOAD_ATTR = opcode.opmap['LOAD_ATTR']
CALL_FUNCTION = opcode.opmap['CALL_FUNCTION']
BUILD_LIST_FROM_ARG = opcode.opmap['BUILD_LIST_FROM_ARG']
BUILD_LIST = opcode.opmap['BUILD_LIST']
ROT_TWO = opcode.opmap['ROT_TWO']
JUMP_IF_NOT_DEBUG = opcode.opmap['JUMP_IF_NOT_DEBUG']
JUMP_FORWARD = opcode.opmap['JUMP_FORWARD']
JUMP_ABSOLUTE = opcode.opmap['JUMP_ABSOLUTE']
def pypy_to_cpython(code):
code = [ord(c) for c in code]
i = 0
while i < len(code):
if code[i] == LOOKUP_METHOD:
code[i] = LOAD_ATTR
elif code[i] == CALL_METHOD:
code[i] = CALL_FUNCTION
elif code[i] == BUILD_LIST_FROM_ARG:
code[i:i + 3] = [JUMP_ABSOLUTE, len(code) % 256, len(code) // 256]
code.extend([BUILD_LIST, 0, 0, ROT_TWO,
JUMP_ABSOLUTE, (i + 3) % 256, (i + 3) // 256])
elif code[i] == JUMP_IF_NOT_DEBUG:
if __debug__:
code[i:i + 3] = [NOP, NOP, NOP]
else:
code[i] = JUMP_FORWARD
i += (3 if code[i] >= HAVE_ARGUMENT else 1)
return ''.join(chr(c) for c in code)
注意:还有 BUILD_LIST_FROM_ARG
和 JUMP_IF_NOT_DEBUG
。前者相当于BUILD_LIST(0)
后跟[=17=],后者相当于debug模式下的no-op,当not[=28=时相当于JUMP_FORWARD
] 在调试模式下。这里的棘手一点是避免需要重新计算绝对跳转和行号的字节码位置;解决方法是将任何更长的字节码字符串附加到函数的末尾,然后跳转到那里并跳回。
然后子类化(或猴子补丁)cloudpickle.CloudPickler
调用你的操作码补丁程序:
class MyPickler(CloudPickler):
dispatch = CloudPickler.dispatch.copy()
def save_codeobject(self, obj):
"""
Save a code object
"""
if PY3:
args = (
obj.co_argcount, obj.co_kwonlyargcount, obj.co_nlocals, obj.co_stacksize,
obj.co_flags, pypy_to_cpython(obj.co_code), obj.co_consts, obj.co_names, obj.co_varnames,
obj.co_filename, obj.co_name, obj.co_firstlineno, obj.co_lnotab, obj.co_freevars,
obj.co_cellvars
)
else:
args = (
obj.co_argcount, obj.co_nlocals, obj.co_stacksize, obj.co_flags, pypy_to_cpython(obj.co_code),
obj.co_consts, obj.co_names, obj.co_varnames, obj.co_filename, obj.co_name,
obj.co_firstlineno, obj.co_lnotab, obj.co_freevars, obj.co_cellvars
)
self.save_reduce(types.CodeType, args, obj=obj)
dispatch[types.CodeType] = save_codeobject
我有一段代码被 pypy pickle,但是,pypy 添加了自己的操作码来扩展 cpython 操作码,它不能被 cpython 解开(引发 SystemError:未知操作码)。
由特殊操作码LOOKUP_METHOD & CALL_METHOD引起,参考the pypy doc
我想知道如何让 pypy 生成完全标准的 cpython 字节码而不是自定义字节码。我查看了文档,找到了 PYTHONOPTIMIZE 环境变量,并将其设置为 0,但它没有用。
p.s。我不能改变 unpickle 的一面,它必须是 cpython 2.7。
更新 1
正如评论所说,cpython 不能 pickle 或 unpickle 代码对象,这是正确的。 我正在使用 cloudpickle 库来 pickle 和 unpickle 函数对象, 而在cloudpickle库中,代码对象可以被pickle。
问题是co_code 属性在pypy中不一样, 它包含仅在 pypy 中定义的特殊操作码。
更新 2
我采用了@ecatmur 提供的方法,除了BUILD_LIST_FROM_ARG.
,其他都很完美下面是我的代码:
class my_func(object):
def __init__(self, resources):
self.file_resource = resources[0]
self.table_resource = resources[1]
self.valid_ids = [int(l) for l in self.file_resource]
self.valid_ids.extend([int(l[0]) for l in self.table_resource]) # issue line
在pypy端修改cloudpickle之后,我在cpython端unpikle:
c = pickle.loads('**the pypy pickled code**')
c([['0'], [['1']]])
但出现错误:
in __init__(self, resources)
453
454 self.valid_ids = [int(l) for l in self.file_resource]
--> 455 self.valid_ids.extend([int(l[0]) for l in self.table_resource])
456
457 def __call__(self, arg):
TypeError: 'int' object has no attribute '__getitem__'
我通过dis.dis查了下字节码,好有线,好像挺对的
如果我用 cpython 进行 pickle,unpickle 的一面就可以正常工作。
对更新 2 有什么想法吗?
没有任何选项可以禁用 LOOKUP_METHOD
优化;您可以尝试禁用 astcompiler.PythonCodeGenerator._optimize_method_call()
但我认为在您 pickle 时修补字节码会更安全。幸运的是,这很容易,因为操作码采用相同的参数并出现在相应的位置:
from cloudpickle import CloudPickler, PY3
import opcode
HAVE_ARGUMENT = opcode.HAVE_ARGUMENT
NOP = opcode.opmap['NOP']
LOOKUP_METHOD = opcode.opmap['LOOKUP_METHOD']
CALL_METHOD = opcode.opmap['CALL_METHOD']
LOAD_ATTR = opcode.opmap['LOAD_ATTR']
CALL_FUNCTION = opcode.opmap['CALL_FUNCTION']
BUILD_LIST_FROM_ARG = opcode.opmap['BUILD_LIST_FROM_ARG']
BUILD_LIST = opcode.opmap['BUILD_LIST']
ROT_TWO = opcode.opmap['ROT_TWO']
JUMP_IF_NOT_DEBUG = opcode.opmap['JUMP_IF_NOT_DEBUG']
JUMP_FORWARD = opcode.opmap['JUMP_FORWARD']
JUMP_ABSOLUTE = opcode.opmap['JUMP_ABSOLUTE']
def pypy_to_cpython(code):
code = [ord(c) for c in code]
i = 0
while i < len(code):
if code[i] == LOOKUP_METHOD:
code[i] = LOAD_ATTR
elif code[i] == CALL_METHOD:
code[i] = CALL_FUNCTION
elif code[i] == BUILD_LIST_FROM_ARG:
code[i:i + 3] = [JUMP_ABSOLUTE, len(code) % 256, len(code) // 256]
code.extend([BUILD_LIST, 0, 0, ROT_TWO,
JUMP_ABSOLUTE, (i + 3) % 256, (i + 3) // 256])
elif code[i] == JUMP_IF_NOT_DEBUG:
if __debug__:
code[i:i + 3] = [NOP, NOP, NOP]
else:
code[i] = JUMP_FORWARD
i += (3 if code[i] >= HAVE_ARGUMENT else 1)
return ''.join(chr(c) for c in code)
注意:还有 BUILD_LIST_FROM_ARG
和 JUMP_IF_NOT_DEBUG
。前者相当于BUILD_LIST(0)
后跟[=17=],后者相当于debug模式下的no-op,当not[=28=时相当于JUMP_FORWARD
] 在调试模式下。这里的棘手一点是避免需要重新计算绝对跳转和行号的字节码位置;解决方法是将任何更长的字节码字符串附加到函数的末尾,然后跳转到那里并跳回。
然后子类化(或猴子补丁)cloudpickle.CloudPickler
调用你的操作码补丁程序:
class MyPickler(CloudPickler):
dispatch = CloudPickler.dispatch.copy()
def save_codeobject(self, obj):
"""
Save a code object
"""
if PY3:
args = (
obj.co_argcount, obj.co_kwonlyargcount, obj.co_nlocals, obj.co_stacksize,
obj.co_flags, pypy_to_cpython(obj.co_code), obj.co_consts, obj.co_names, obj.co_varnames,
obj.co_filename, obj.co_name, obj.co_firstlineno, obj.co_lnotab, obj.co_freevars,
obj.co_cellvars
)
else:
args = (
obj.co_argcount, obj.co_nlocals, obj.co_stacksize, obj.co_flags, pypy_to_cpython(obj.co_code),
obj.co_consts, obj.co_names, obj.co_varnames, obj.co_filename, obj.co_name,
obj.co_firstlineno, obj.co_lnotab, obj.co_freevars, obj.co_cellvars
)
self.save_reduce(types.CodeType, args, obj=obj)
dispatch[types.CodeType] = save_codeobject