对使用 protoc 生成的 pb2.py 中的 .proto 文件进行逆向工程

Reverse engineering .proto files from pb2.py generated with protoc

是否可以使用 protoc 从生成的 pb2.py 中获取原型文件? gRPC 是否可以进行相同的逆向工程?

这是可能的,但我不知道有任何工具可以做到这一点。

包括 gRPC 服务定义的协议缓冲区 (protos) 由 protoc 编译成特定语言的源代码。您正在寻找反编译器。

我们知道这个过程是可逆的,因为它有效;我们能够使用生成的资源——甚至跨语言——向同行发送消息。

_pb2.py 文件的格式因 protobuf-python 版本而异,但大多数版本内部都有一个名为 serialized_pb 的字段。这包含 FileDescriptorProto 格式的 .proto 文件的整个结构:

serialized_pb=b'\n\x0c...'

这可以传递给 protoc 编译器,为其他语言生成 headers。但是,必须先将其放入 FileDescriptorSet 以正确匹配格式。这可以使用 Python:

来完成
import google.protobuf.descriptor_pb2
fds = google.protobuf.descriptor_pb2.FileDescriptorSet()
fds.file.append(google.protobuf.descriptor_pb2.FileDescriptorProto())
fds.file[0].ParseFromString(b'\n\x0c... serialized_pb data ....')
open('myproto.txt', 'w').write(str(fds))
open('myproto.pb', 'wb').write(fds.SerializeToString())

上面的代码片段将 human-readable 版本保存到 myproto.txt,并将名义上与 protoc 兼容的格式保存到 myproto.pb。文本表示如下所示:

file {
  name: "XYZ.proto"
  dependency: "dependencyXYZ.proto"
  message_type {
    name: "MyMessage"
    field {
      name: "myfield"
      number: 1
     label: LABEL_OPTIONAL
     type: TYPE_INT32
    }
   ...

例如 C++ headers 现在可以使用以下方式生成:

protoc --cpp_out=. --descriptor_set_in=myproto.pb XYZ.proto

注意 XYZ.proto 必须与描述符集中的文件名相匹配,您可以在 myproto.txt 中查看。然而,如果文件有依赖关系,这种方法很快就会变得困难,因为所有这些依赖关系都必须收集在同一个描述符集中。在某些情况下,仅使用文本表示手动重写 .proto 文件可能更容易。