从 R 中的 Word 文档中提取项目符号

Extract bullets from Word Document in R

我有一个 Microsoft Word 文档,其中包含多个项目符号和嵌套项目符号(子项目符号),最多可嵌套三层。我一直在探索如何使用 R 中的 officer 包从 Word 文档中读取文本,然后我计划将其插入到数据库中。我能够成功地从文档中提取所有文本,但我似乎无法弄清楚如何提取项目符号本身。每个项目符号和项目符号级别都提供了有关我需要提取的文本的重要上下文信息,但项目符号似乎是 stripped/ignored 使用 officer 包。所以我的问题是,除了文本之外,我有没有办法使用 officer 来提取项目符号本身,或者是否有其他一些我可以使用的 R 包来检索项目符号嗯?

我意识到,我可能会编写一个自定义函数来提取 Word 文档的 xml 结构并从那里获取项目符号,但我真的试图避免深入了解这些细节并重新创建其他人可能已经开发的轮子。

谢谢。

嗯,刚问完这个问题,我就发现了officer中的docx_summary函数。看起来这会显示一个名为 level 的列,它指示项目符号嵌套级别。我想我应该能够用它来完成我想做的事情,很抱歉,回答我自己的问题,但我认为这可能对其他试图做同样事情的人有用。我唯一真正希望的是能够准确确定项目符号使用的符号,但我可以解决这个问题,但如果其他人可能知道如何提取每个项目符号级别使用的符号,那将不胜感激.