在 Foundry 代码存储库中,我如何遍历目录中的所有数据集?

In Foundry Code Repositories, how do I iterate over all datasets in a directory?

我正在尝试从单个 Pyspark 转换中的单个目录读取(全部或多个)数据集。是否可以在不将单个数据集硬编码为输入的情况下迭代路径中的所有数据集?

我想从多个数据集中动态获取不同的列,而不必对各个输入数据集进行硬编码。

所以这不起作用,因为每次 运行 CI 都会得到不一致的结果。这将破坏 TLLV(转换级别逻辑版本控制),因为无法判断逻辑何时实际发生变化,从而将数据集标记为陈旧。

您必须写出您希望转换的每个数据集的逻辑路径,即使这意味着它们将被传递到生成的转换中。至少需要有一些一致的记录,记录哪些数据集是哪个提交的目标。

实现您正在寻找的目标的另一种策略是制作一个长数据集,该数据集是数据集的非透视版本。通过这种方式,您可以将 APPEND 新行/文件简单地添加到该数据集,这将允许您接受任意输入,假设您的转换是以处理这种方式构建的。 我的经验法则是:如果您需要数据集的动态模式或动态计数,那么最好在单个数据集中使用动态文件/行计数。