Tika 解析器没有解析所有文件
Tika parser is not parsing all the file
我有一个 122 页的 pdf 文件。当我使用 Tika
(版本 1.17)解析它时,它不会 return returned string
.
中的整个文本
我使用以下简单代码获取文本:
String content = new Tika().parseToString(file);
我用这段代码得到的文本在第 118 页左右结束。也就是说,最后几页被忽略了。
正在提升对答案的评论...
Apache Tika 将默认设置允许解析器生成的最大文本大小,以避免意外淹没用户。在你的情况下,当你真的想要更多时,你似乎达到了那个极限!
作为 Tika facade helper class 的用户,您只需调用 Tika.setMaxStringLength(int) 设置更高的限制,或者 -1
完全禁用限制
如果您直接使用 Tika 解析器 classes,那么您应该为内容处理程序设置更高的写入限制(或 -1
),例如 BodyContentHandler(int writeLimit)
我有一个 122 页的 pdf 文件。当我使用 Tika
(版本 1.17)解析它时,它不会 return returned string
.
我使用以下简单代码获取文本:
String content = new Tika().parseToString(file);
我用这段代码得到的文本在第 118 页左右结束。也就是说,最后几页被忽略了。
正在提升对答案的评论...
Apache Tika 将默认设置允许解析器生成的最大文本大小,以避免意外淹没用户。在你的情况下,当你真的想要更多时,你似乎达到了那个极限!
作为 Tika facade helper class 的用户,您只需调用 Tika.setMaxStringLength(int) 设置更高的限制,或者 -1
完全禁用限制
如果您直接使用 Tika 解析器 classes,那么您应该为内容处理程序设置更高的写入限制(或 -1
),例如 BodyContentHandler(int writeLimit)