DataPrep:访问源文件名

DataPrep: access to source filename

有没有办法用创建每一行的源文件名创建一个列?

用例:我想跟踪 GCS 存储桶中的哪个文件导致在结果数据集中创建了哪一行。我想要对特定 GCS 存储桶中包含的文件进行预定转换。

我查看了 GCP 上的“metadata 文章”,但它对我的用例毫无用处。

更新:我用 Google 打开了一个 feature request

虽然他们尚未关闭该问题,但这是上周更新的一部分。

现在有一个名为 $filepath 的源元数据引用——如您所料,它将文件的本地路径存储在 Cloud Storage 中(从顶级存储桶开始)。您可以在公式中使用它或将其添加到新的公式列中,然后在其他配方步骤中执行任何您想要的操作。

有一些注意事项,例如它不会为 BigQuery 源返回值,也不会通过 pivotjoinunnest 持续存在。 . .但它可以轻松涵盖绝大多数用例,在其他情况下,您只需要在某些破坏性转换之前实现它即可。

注意:如果您的数据源示例是在此功能之前创建的,则您需要生成一个新示例才能在界面中看到它(而不仅仅是 NULL 值)。

此处提供了这些元数据字段的完整说明:https://cloud.google.com/dataprep/docs/html/Source-Metadata-References_136155148