Apache Tika 服务器:从 Office 文档中获取宏?

Apache Tika Server: get macros from office documents?

我使用 Apache Tika 作为服务来分析 Python 中的 Office 文档,如下所示:

url = 'http://{0}:{1}/rmeta/xml'
url = url.format(self._host, self._port)
res = requests.put(url, data=dat).json()

如果文档包含宏,我想从文档中提取宏的内容,但不知道该怎么做。 Apache Tika 文档不是很好。是否有任何header或我需要用来制作Tika服务器return宏内容以及文档内容的东西?

据我了解,问题是默认情况下 Tika 不会从 Office 文档中提取宏。为了做到这一点,我必须为 Tika 制作一个自定义配置文件,为 Tika 中实现的两个 Microsoft Office 解析器启用 extractMacros 属性(我不知道他们是否使用 POI 或其他东西)。这是一个如何做的例子:https://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/microsoft/tika-config-macros.xml