从 PDF 转换的 XBRL 文件中提取数据

extraction of data from PDF converted XBRL files

我有一些 XBRL 文件转换成 pdf。现在我想开发一个项目,自动从这些文件中提取所有数据。该项目将在 JAVA 中开发。我无法获得任何线索。非常感谢关于如何启动该项目的任何建议,因为互联网上关于此的信息非常有限。

我建议尝试获取原始 XBRL(或 iXBRL)文件,而不是使用生成的 PDF。

XBRL 的设计初衷是为了易于机器阅读,并避免对印刷文档或 PDF 进行逆向工程。尝试阅读 PDF 意味着没有利用 XBRL 的潜力,并可能导致不精确和错误。

然后,如果您可以获得这些源文件,我建议您使用 XBRL 处理器,它会为您解决所有复杂问题。与使用原始 XML 处理器相比,这将节省大量时间。很可能有为 Java.

编写的 XBRL 库

很抱歉不能给你一个更好的答案,但我希望这能帮助你开始。