如何从 nodejs 中的 Google doc 导出的 docx 中提取元作者和标题?

How can I extract the meta author and title from a docx exported from Google doc in nodejs?

我在 Google 文档上创建了一个 .docx 文档,

使用脚本,我想检测元:

我已经尝试了以下软件包,并且因为这些软件包不起作用而提出了问题:

如何从 NodeJS 中的 google doc .docx 文档中提取元作者和标题?

.docx 文件只是一个包含其他文件的 zip 文件。只需找到一个可以解压缩它的 package/module 并查找包含您需要的数据的 .xml 个文件。 ;) 您可以自己解压缩并看一看。我用 7-zip 浏览了一个,在 docProps 子路径中找到了两个包含一些文档数据的文件:

  • app.xml
  • core.xml

我敢肯定有很多可供选择,但这里有一个:https://www.npmjs.com/package/unzip

如果您从 Google 文档导出,则可能不会包含该信息。