GemStone Smalltalk 的 ETL 是如何完成的?

How is ETL done for GemStone Smalltalk?

我想(重新)从 GemStone/S 重新开始。我已经为关系数据库完成了多个 ETL 转换,但我仍然不清楚如何在 GemStone/S.

我想将不同来源的数据加载到 GemStone 中。它可以是文件(csv、excel、xml、纯文本等)或其他数据库,如 SQL Server、Postgres、Oracle 等

根据我在页面上看到的内容,GemConnect 连接到 Oracle 数据库。你如何从其他数据库或文件中做到这一点?是否有通过 ODBC 连接的选项?是否有任何数据泵可以这样做,或者您 "just" 必须自己做一个?

最后我想问的是如何创建一个暂存区,您可以在其中清理、转换数据,然后将数据加载到 GemStone DB 中。是否有任何示例或文档是如何完成的?

注意:我只在 SO - from Stephan Eggermont 上找到了类似的答案,但是很短而且没有任何 "real" 信息。

分期

我怀疑大多数环境将 "ETL/staging" 作为单独步骤的原因是因为这两个端点有些死板,并且没有用于数据操作的良好编程语言。也就是说,如果您有 TXT、CSV、XML、JSON 或 SQL,并且在另一个 format/schema 中需要它,那么必须有人做 "transformation." 但是如果你在 GemStone 中工作,那么你可以在 Smalltalk 中进行转换——不需要单独的步骤。

文件

如果您有文件(TXT、CSV、XML、JSON 等),请使用 GsFile。事实上,如果另一个端点可以处理文件,那么只需以约定的格式从一个来源导出,然后导入另一个来源(使用 GemStone 进行 "heavy lifting" 转换)。文件更简单,它们避免了通信层,并且使调试变得微不足道(如果源尚未创建文件,那么这是源的问题;如果它在挂起目录中则尚未处理它(目标问题); 如果它在完成的目录中,那么目的地已经处理了它)。

通过这种方法,您可以在 GemStone 中启动(一个或多个)后台作业来监视目录、打开文件进行读取、处理文件,然后将其移动到另一个目录。除了基本的字符串操作,您只需要使用 GsFile。然后在数据库中创建和更新对象。

ODBC

虽然可以从 GemStone 调用 FFI 到 ODBC 库(或调用数据库的本地库,就像使用 GemConnect 所做的那样),但这可能会不必要地复杂。相反,我会使用与外部系统更好交互的工具创建另一个层。该层可以写入文本文件(如上所述),或者通过适当的接口直接与 GemStone 通信。我倾向于使用 Dolphin 提取数据(良好的 ODBC 支持),然后直接从 Dolphin 与 GemStone 通信。您可以使用其他客户端 Smalltalk 方言(Pharo、VA 或 VW)或什至使用另一种语言(我有一个学生正在研究 GemStone 的 Python 界面)来做类似的事情。

O/R映射

在这里,您再次需要一种方法来获取一种格式的数据并将其转换为另一种格式。这些往往是高度特定于领域的,我们发现只编写 Smalltalk 代码更容易。或者,您可以在 Pharo、VA、VW 等中使用 GLORP 之类的东西

最佳实践

我认为您在 GemStone 中没有找到任何 "best practices" 的 ETL,因为我们认为它不是外部过程或单独的步骤。只是如何与文件 (GsFile)、套接字 (GsSocket)、库 (CLibrary) 或客户端 (GCI) 进行通信。从这里我们可以查看内部处理问题,例如多个生产者和一个消费者(RcQueue),或一个生产者和多个消费者(locking)。

所以,并不是 GemStone 应用程序不做 ETL,它们只是在内部做,而且情况更具体。