整合不同部分的代码

Integration of different parts of code

我正在做一个关于从文档中提取元数据的小项目,运行 陷入困境。我在 Java 中有一些库可以很好地处理信息检索的文档,例如 Apache Tika、POI 等,还有一些其他语言的工具,例如 Ruby(pdf-extract) 和 bash 使用 wget 从 RESTful API 获取数据。

AFAIK,代码重用是件好事,对吧?但是,如果不可能(我的意思是本机地)重用所有这些代码,那么必须采取什么方法?

使用 Java 到 运行 终端命令是一种解决方案,但我认为这不是好的编程习惯。

集成多种技术在现实世界的应用程序中非常普遍。为了使其适当扩展,您可能希望使用某种方法来保持一致性。对我来说,最薄弱的部分可能是使用 wget 获取,但这是我的看法。

为了集成并使一切都能很好地扩展,您可能需要查看一些消息传递协议,并对队列进行某种处理,其中各个工作人员 运行 在不同的编程语言和环境中。看: