Pentaho 跳过 headers,将文件名添加到输出

Pentaho skipping headers, adding filename to output

我需要从 pentaho 读取一个 .vcf.gz 文件。 我可以从 "Content" 选项卡设置 "compressed" 到 "GZ" 中的 "Text file input" 读取它。

-首先我需要跳过 headers(基本上每一行都以 # 开头)。

-其次我需要插入一个新列,在每一行插入文件名。

例如

我的文件是:

#header
#header
#header
# chr pos ref alt
  chr1 3   A   A

我想要的是:

chr1 3 A A id_001 (Taken readeing file name)

我怎样才能做到这一点?

如果找到“内容”选项卡,则必须看到“页眉”复选框。您可以指定要跳过的行数。

至于文件名,"Additional output fields" 选项卡就是您所需要的。

这是输出预览:

如果您需要从文件名中删除文件扩展名,有几种方法可以做到这一点。