正则表达式获取 MTOM 二进制 PDF 内容
Regex to get MTOM binary PDF content
我正在尝试使用 SoapClient 的扩展 class 获取 MTOM 二进制内容(这是一个 PDF)。
这是参考 class: https://github.com/debuss/MTOMSoapClient/blob/master/MTOMSoapClient.php
因此,如果您看一下 class,您会看到我收到了一个响应,然后我使用正则表达式来获取它的特定部分。这是我得到的全部回复。
整个回复
HTTP/1.1 200 OK
Date: ...
Server: .....
Set-Cookie: ....; Path=/; HttpOnly
Set-Cookie: ...; Path=/; HttpOnly
Content-Type: multipart/related; type="application/xop+xml"; boundary="uuid:0f7fa750-c317-4039-897a-a90685b00d29"; start="<...>"; start-info="text/xml"
Keep-Alive: timeout=5, max=99
Connection: Keep-Alive
Transfer-Encoding: chunked
--uuid:0f7fa750-c317-4039-897a-a90685b00d29
Content-Type: application/xop+xml; charset=UTF-8; type="text/xml";
Content-Transfer-Encoding: binary
Content-ID: <root.message@cxf.apache.org>
<soap:Envelope xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/"><soap:Body><ns2:downloadAttachResponse xmlns:ns2="http://..../"><return><errStr></errStr><result>0</result><contentFile><xop:Include xmlns:xop="http://www.w3.org/2004/08/xop/include" href="cid:c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org"/></contentFile></return></ns2:downloadAttachResponse></soap:Body></soap:Envelope>
--uuid:0f7fa750-c317-4039-897a-a90685b00d29
Content-Type: application/octet-stream
Content-Transfer-Encoding: binary
Content-ID: <c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org>
%PDF-1.4
...
LOTS OF BINARY CODE HERE FOR THE PDF
--uuid:0f7fa750-c317-4039-897a-a90685b00d29--"
xml 回应
<soap:Envelope xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/">
<soap:Body>
<ns2:downloadAttachResponse xmlns:ns2="http://.../">
<return>
<errStr/>
<result>0</result>
<contentFile>
<xop:Include href="cid:c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org" xmlns:xop="http://www.w3.org/2004/08/xop/include"/>
</contentFile>
</return>
</ns2:downloadAttachResponse>
</soap:Body>
</soap:Envelope>
使用 class 的代码,我在二进制数组上得到一个错误,该数组基本上是空的,因为正则表达式没有获取 pdf 内容。这是具体部分:
正则表达式
// Get CID
$cid = null;
preg_match('/cid:([0-9a-zA-Z-]+)@/', $xop_element, $cid);
$cid = $cid[1];
// Get Binary
$binary = null;
preg_match('/Content-ID:[\s\S].+?'.$cid.'[\s\S].+?>([\s\S]*?)--uuid/', $response, $binary);
$binary = trim($binary[1]); // error here
那么,如何使用正则表达式获取 PDF 二进制内容?
谢谢!
在示例数据中,Content-ID: 部分以 >
结尾
Content-ID: <c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org>
在您使用的模式中,这部分 $cid.'[\s\S].+?>
需要至少一个字符 [\s\S]
后跟任何非贪婪字符的 1+ 倍 .+?
这意味着应该有>
前至少 2 个字符
但在示例数据中,它们之间没有字符。
您可以更新代码以使用
preg_match('/Content-ID:[\s\S].+?'.$cid.'[\s\S]*?>([\s\S]*?)--uuid/', $response, $binary);
如果数据的结构总是这样,您可以稍微优化一下模式:
Content-ID:\h+<c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org>\R\s*((?:(?!--uuid).*\R)*)--uuid
我正在尝试使用 SoapClient 的扩展 class 获取 MTOM 二进制内容(这是一个 PDF)。
这是参考 class: https://github.com/debuss/MTOMSoapClient/blob/master/MTOMSoapClient.php
因此,如果您看一下 class,您会看到我收到了一个响应,然后我使用正则表达式来获取它的特定部分。这是我得到的全部回复。
整个回复
HTTP/1.1 200 OK
Date: ...
Server: .....
Set-Cookie: ....; Path=/; HttpOnly
Set-Cookie: ...; Path=/; HttpOnly
Content-Type: multipart/related; type="application/xop+xml"; boundary="uuid:0f7fa750-c317-4039-897a-a90685b00d29"; start="<...>"; start-info="text/xml"
Keep-Alive: timeout=5, max=99
Connection: Keep-Alive
Transfer-Encoding: chunked
--uuid:0f7fa750-c317-4039-897a-a90685b00d29
Content-Type: application/xop+xml; charset=UTF-8; type="text/xml";
Content-Transfer-Encoding: binary
Content-ID: <root.message@cxf.apache.org>
<soap:Envelope xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/"><soap:Body><ns2:downloadAttachResponse xmlns:ns2="http://..../"><return><errStr></errStr><result>0</result><contentFile><xop:Include xmlns:xop="http://www.w3.org/2004/08/xop/include" href="cid:c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org"/></contentFile></return></ns2:downloadAttachResponse></soap:Body></soap:Envelope>
--uuid:0f7fa750-c317-4039-897a-a90685b00d29
Content-Type: application/octet-stream
Content-Transfer-Encoding: binary
Content-ID: <c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org>
%PDF-1.4
...
LOTS OF BINARY CODE HERE FOR THE PDF
--uuid:0f7fa750-c317-4039-897a-a90685b00d29--"
xml 回应
<soap:Envelope xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/">
<soap:Body>
<ns2:downloadAttachResponse xmlns:ns2="http://.../">
<return>
<errStr/>
<result>0</result>
<contentFile>
<xop:Include href="cid:c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org" xmlns:xop="http://www.w3.org/2004/08/xop/include"/>
</contentFile>
</return>
</ns2:downloadAttachResponse>
</soap:Body>
</soap:Envelope>
使用 class 的代码,我在二进制数组上得到一个错误,该数组基本上是空的,因为正则表达式没有获取 pdf 内容。这是具体部分:
正则表达式
// Get CID
$cid = null;
preg_match('/cid:([0-9a-zA-Z-]+)@/', $xop_element, $cid);
$cid = $cid[1];
// Get Binary
$binary = null;
preg_match('/Content-ID:[\s\S].+?'.$cid.'[\s\S].+?>([\s\S]*?)--uuid/', $response, $binary);
$binary = trim($binary[1]); // error here
那么,如何使用正则表达式获取 PDF 二进制内容?
谢谢!
在示例数据中,Content-ID: 部分以 >
Content-ID: <c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org>
在您使用的模式中,这部分 $cid.'[\s\S].+?>
需要至少一个字符 [\s\S]
后跟任何非贪婪字符的 1+ 倍 .+?
这意味着应该有>
但在示例数据中,它们之间没有字符。
您可以更新代码以使用
preg_match('/Content-ID:[\s\S].+?'.$cid.'[\s\S]*?>([\s\S]*?)--uuid/', $response, $binary);
如果数据的结构总是这样,您可以稍微优化一下模式:
Content-ID:\h+<c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org>\R\s*((?:(?!--uuid).*\R)*)--uuid