如何使用 Tika 或任何其他库从 PDF 文件中提取数据并将其存储为 CSV/excel 格式

How to extract data from a PDF file using Tika or any other library and store it in CSV/excel format

我想提取 PDF 文件中的数据并以 CSV/Excel sheet.I 的格式呈现，我知道这可以使用 [=17= 中的 Tika 库来完成], 我确实找到了如何将数据提取为简单文本的解决方案，但我想知道如何将其存储在 excel sheet.

中

如果有人以前做过这种类型的工作，请帮助我。

第一部分（也是最难的部分）是解析原始数据并将其解释为 table。 Apache Tika 将为您提供 xhtml 表示（或使用 SAX 事件调用您自己的处理程序），但它通常不会为您构建 table。我的意思是来自 pdf 文件，因为 pdf 本身不是表格格式。

因此，您必须采用 Tika 制作的段落，拆分它们并将生成的单元格传递给某些 csv/xls/xlsx 作者。如果您的 pdf 中有一些常规 table（每 table 行一行，干净的单元格逻辑分隔等），它可能会起作用。但它看起来像解析纯文本，当然。

万一我不能工作，你必须使用 pdf 解析器（比如 Apache PDFBox）并尝试解释它的输出。

第二部分（输出）很简单。如果 csv/ssv/tsv 对你来说是 suitable —— 使用你喜欢的库来生成它（我可以推荐 Apache commons-csv）。但考虑到 MS Excel 需要 UTF-8 和 UTF-16 csv 的 BOM 以了解该文件不是单字节编码（如 CP-1252 等）。

如果你想要 Excel xls 或 xlsx 格式 -- 只需使用 Apache POI 即可。

如何使用 Tika 或任何其他库从 PDF 文件中提取数据并将其存储为 CSV/excel 格式

How to extract data from a PDF file using Tika or any other library and store it in CSV/excel format

java

pdf

excel

apache-tika