从 OLE object 数据导出 .docx
Export .docx from OLE object data
我遇到的问题是,当我从“Access”数据库 .docx 中读取嵌入式 (ole) (.docx) object 时。我使用 c#.net 寻找“50 4B 03 04 14 00 06 00”十六进制 header。我提取 PDF、DOC、PNG、TIFF 没有任何问题。
DOCX 文件是一个集合(Open Packaging Conventions, OPC) of XML (WordprocessingML) and other formats zipped together. (The overall DOCX / OOXML standard is described here。)由于压缩会压缩文件,因此它会更改二进制内容。尝试在解压缩后对任何你想要的 OPC 部分重复你的方法——关键的 WordprocessingML 将是一个很好的起点:word/document.xml
我遇到的问题是,当我从“Access”数据库 .docx 中读取嵌入式 (ole) (.docx) object 时。我使用 c#.net 寻找“50 4B 03 04 14 00 06 00”十六进制 header。我提取 PDF、DOC、PNG、TIFF 没有任何问题。
DOCX 文件是一个集合(Open Packaging Conventions, OPC) of XML (WordprocessingML) and other formats zipped together. (The overall DOCX / OOXML standard is described here。)由于压缩会压缩文件,因此它会更改二进制内容。尝试在解压缩后对任何你想要的 OPC 部分重复你的方法——关键的 WordprocessingML 将是一个很好的起点:word/document.xml