我想知道我是否可以使用 DataFusion 按特定名称的目录执行数据管道

I wonder if I can perform data-pipeline by directory of a specific name with DataFusion

我正在使用 google-云平台数据融合。

假设桶的路径如下:

test_buk/...

在 test_buk 存储桶中有四个文件:

20190901, 20190902

20191001, 20191002

假设 test_buk 中有一个名为 dir.

的目录

我有一个基于 201909(例如 20190901、20190902)的基于前缀的捆绑包

此外,我有一个基于 201910 的基于前缀的捆绑包(例如,20191001、20191002)

我想完成 201909 和 201910 捆绑包的数据管道。

这是我尝试过的方法:

使用正则表达式路径过滤器 gs://test_buk/dir//2019 到 运行 数据管道。

如果插入正则表达式路径过滤器,则不会读取输入值,同样也没有输出值。

当我想在捆绑包中创建具有特定目录的数据管道时,如何在数据融合中处理它?

如果直接使用原始路径 (gs://test_buk/dir/),在正则表达式中转义特殊字符时可能会出错。这可能是您没有将任何输入文件放入与您的过滤器匹配的管道的原因。

我建议您改为使用“.*”对初始部分进行数学计算(假设您还指定了路径,其他文件夹中的其他文件将不会匹配过滤器)。

因此,我会根据您要使用的文件组使用以下表达式(您可以随意更改文件的扩展名):

路径=gs://test_buk/dir/

正则表达式路径过滤器 = .*201909.*\.csv.*201910.*\.csv

如果您想了解更多有关所使用的正则表达式的信息,可以查看 (1)