我可以使用消息代理将 PDF 或 MS Word 文档内容流式传输为 XML 吗?

Can I use message broker to stream PDF or MS Word document content as XML?

我正在尝试将 word 文档和 PDF 的内容发送到 Apache OpenNLP。我想知道我是否可以使用 ActiveMQ 读取 MS word,以便我可以触发一个进程到 Apache Kafka 来处理流。

欢迎任何流式传输 PDF 或 ActiveMQ 以外的文字的建议。

消息队列通常不应用于文件传输。将文件放在像 S3 这样的 blob 存储中,然后在客户端之间发送 URI(例如 "s3://bucket/file.txt"),然后在其他地方下载和处理......其他选择是在生产者客户端中使用 Apache POI 或类似工具来解析你的文件,然后以您想要的任何格式发送该数据(JSON、Avro 或 Protobuf 通常在流媒体工具中比 XML 更常用)

实际文件处理与使用的队列技术无关

如果您使用 ActiveMQ“Classic”(即任何 5.x 版本),您在移动大消息时会遇到问题,因为该用例没有真正的支持。但是,ActiveMQ Artemis (i.e. ActiveMQ's next-gen broker) has support for arbitrarily large messages 这将有助于您的用例。在代理中支持大消息的好处是您不必在解决方案中涉及其他类型的存储机制。这使您的应用程序和环境的开发和维护变得更加简单。