从 LOGSTASH 读取 PDF 内容

Reading PDF content from LOGSTASH

LOGSTASH 能否从某个位置读取 PDF 文件并提取其中的内容,然后将此内容发送到目的地 (KAFKA)?

据我所知,LOGSTASH 可以读取 .TXT 或 .LOG 或 .CSV 文件,但我不确定它是否能够读取 PDF 中的内容。

关于此行的任何建议都会有所帮助。

如果没有,kafka有这个能力吗?是否可以从 APACHE KAFKA 读取 PDF 内容?

Logstash 没有 PDF 输入过滤器。最好的办法是找到一个可以为您提供 PDF 文件内文本的程序。这个问题可能会有所帮助:How to extract text from a PDF?

然后您可以设置一些东西来生成 PDF 的文本版本,然后使用 logstash 将它们索引到 elasticsearch 中。