Tika 解析器没有解析所有文件

Tika parser is not parsing all the file

我有一个 122 页的 pdf 文件。当我使用 Tika(版本 1.17)解析它时,它不会 return returned string.

中的整个文本

我使用以下简单代码获取文本:

    String content = new Tika().parseToString(file);

我用这段代码得到的文本在第 118 页左右结束。也就是说,最后几页被忽略了。

正在提升对答案的评论...

Apache Tika 将默认设置允许解析器生成的最大文本大小,以避免意外淹没用户。在你的情况下,当你真的想要更多时,你似乎达到了那个极限!

作为 Tika facade helper class 的用户,您只需调用 Tika.setMaxStringLength(int) 设置更高的限制,或者 -1 完全禁用限制

如果您直接使用 Tika 解析器 classes,那么您应该为内容处理程序设置更高的写入限制(或 -1),例如 BodyContentHandler(int writeLimit)