将多个 VCF 文件合并为一个大 VCF 文件

Combine multiple VCF files into one large VCF file

我有来自特定种族的 VCF 文件列表,例如美国印第安人、中国人、欧洲人等

在每个种族下,我有大约 100 多个文件。

目前,我计算了一个文件的 VARIANT QC 指标,例如 call_raten_het 等,如冰雹教程中所示(参见下图)

image is here

但是,现在我想为每个种族创建一个文件,然后计算 VARIANT_QC 指标。

我已经提到了这个 post and this post 但我认为这不能解决我的问题

如何在特定种族下的所有文件中执行此操作?

可以帮我解决这个问题吗?

有什么hail/python/R/other tools方法可以做到这一点吗?

您可以使用 Variant Transforms to achieve this goal. Variant Transforms is a tool for parsing and importing VCF files into BigQuery。它还可以执行反向转换:将存储在 BigQuery 表中的变体导出到 VCF 文件。所以基本上你需要:multiple VCF files -> BigQuery -> Single VCF file

变体变换可以轻松处理 multiple input files. It also can perform more complex logic to merge same variants across multiple files into the same record. After your variants are all loaded into BigQuery you could export them to VCF file

请注意,Variant Transforms 创建了一个 separate table for each chromosome 来优化查询成本。您可以轻松地为每个染色体创建一个 VCF 文件,然后将它们合并在一起以创建一个。

如果您需要帮助完成此任务,可以联系 Variant Transforms team