从通道展开路径

Expand paths from a channel

我的数据结构为 运行 批处理的样本。所以我有一个这样的目录层次结构:

/path/to/dir/batch_1/sample_1
/path/to/dir/batch_1/sample_2
/path/to/dir/batch_1/...
/path/to/dir/batch_2/sample_1
/path/to/dir/batch_2/sample_2
/path/to/dir/batch_2/...
/path/to/dir/...

我想对给定批次子集的每个样本应用一个过程。一种可行的方法是生成一个列出示例的频道:

path_to_samples= Channel
    .fromPath(['/path/to/dir/batch_2/sample_*',
               '/path/to/dir/batch_322/sample_*'], type: 'dir' )

process my_process{

    input:
    path(sample) from path_to_samples

    """
    do stuff
    """
}

现在,我想分别提供批次名称,让脚本找到相应的样本。类似的东西:

params.root_dir = '/path/to/dir/'
params.batch_names = Channel.from('batch_2', 'batch_322')

// make samples channel: incorrect
path_to_samples = params.batch_names
                        .map { params.root_dir + it + 'sample_*' }
                        .toPath()

process my_process{

    input:
    path(sample) from path_to_samples

    """
    do stuff
    """
}

所以,我对渠道的看法是错误的?有没有办法通过渠道操作,将样本列表“扁平化”?或者是制作更复杂的 Groovy 闭包的正确方法,该闭包将列出每个批处理目录中的文件并将其 return 作为元组或列表?

不确定您希望如何提供输入批次名称,但您可以使用简单的闭包创建 glob 模式列表,然后使用它们创建输入通道:

params.root_dir = '/path/to/dir'
params.batch_names = /path/to/batch_names.txt'

batch_names = file(params.batch_names)
sample_dirs = batch_names.readLines().collect { "${params.root_dir}/${it}/sample_*" }

samples = Channel.fromPath( sample_dirs, type: 'dir' )

process my_process{

    input:
    path(sample) from samples

    """
    ls -l "${sample}"
    """
}

不过,我倾向于将输入 glob 模式保留为参数。这种方法提供了最大的灵活性,但可能不适合您的用例:

params.samples = '/path/to/dir/batch_{2,322}/sample_*'

samples = Channel.fromPath( params.samples, type: 'dir' )