如何使用 Tika 或任何其他库从 PDF 文件中提取数据并将其存储为 CSV/excel 格式

How to extract data from a PDF file using Tika or any other library and store it in CSV/excel format

我想提取 PDF 文件中的数据并以 CSV/Excel sheet.I 的格式呈现,我知道这可以使用 [=17= 中的 Tika 库来完成], 我确实找到了如何将数据提取为简单文本的解决方案,但我想知道如何将其存储在 excel sheet.

如果有人以前做过这种类型的工作,请帮助我。

第一部分(也是最难的部分)是解析原始数据并将其解释为 table。 Apache Tika 将为您提供 xhtml 表示(或使用 SAX 事件调用您自己的处理程序),但它通常不会为您构建 table。我的意思是来自 pdf 文件,因为 pdf 本身不是表格格式。

因此,您必须采用 Tika 制作的段落,拆分它们并将生成的单元格传递给某些 csv/xls/xlsx 作者。 如果您的 pdf 中有一些常规 table(每 table 行一行,干净的单元格逻辑分隔等),它可能会起作用。但它看起来像解析纯文本,当然。

万一我不能工作,你必须使用 pdf 解析器(比如 Apache PDFBox)并尝试解释它的输出。

第二部分(输出)很简单。如果 csv/ssv/tsv 对你来说是 suitable —— 使用你喜欢的库来生成它(我可以推荐 Apache commons-csv)。 但考虑到 MS Excel 需要 UTF-8 和 UTF-16 csv 的 BOM 以了解该文件不是单字节编码(如 CP-1252 等)。

如果你想要 Excel xlsxlsx 格式 -- 只需使用 Apache POI 即可。