Pentaho PDI 存储库连接

Pentaho PDI Repository connection

  1. 您能解释一下 Pentaho PDI 中不同类型的存储库之间的区别吗?拥有这些不同的存储库有什么用?
  2. JNDI 和 OCI 数据库连接向导有什么好处,如何配置这两个?

提前感谢您的意见。

问题 1: 您有 3 种类型的存储库:文件存储库、数据库存储库和 Pentaho 存储库。

You can Export/Import from one repository format to an other at any time.

文件存储库将 transformation/jobs/connections/etc... 保存在 xml 文件中。另外两个将它们存储在数据库中,这意味着可以在用户之间共享。数据库 (CE) 存储库仅包含最新版本,而您必须支付许可的 Pentaho (EE) 存储库具有版本控制和其他花哨的东西。

选哪个:对于单个用户来说,最简单的就是文件仓库...除非你想查询SQL 的存储库,当您突然在生产环境中面对未记录的 ETL 系统进行迁移、升级、优化或调试时,这可能会很有用。

供多个开发者使用一个数据库存储库,如果你计划开发者使用但很少修改其他人写的transformation/jobs。否则,如果您觉得需要一个版本控制来频繁恢复,请使用在 SVN 上共享的文件,例如 github。在这种情况下,其他开发人员将需要下载已提交的修改以保持同步。

当然,如果您的客户有能力通过购买许可证来赞助 OpenSource,请使用 Entreprise 存储库,它为您提供:实时修改和版本控制。

问题二: 如果您提出问题,请使用 JDBC (OCI) 以及 kettle.property 中定义的连接参数。 JINI是一种多用户共享同一个连接的技术,表现为一种集中式服务。在 PDI 的上下文中,除了 DBA 以 JINI 或 JDBC 格式为您提供连接凭据外,几乎没有什么区别。