既然 varientsets.export 已被弃用,如何将 Cloud Genomics 变体集导出到 BigQuery?

How is it possible to export a Cloud Genomics variantset to BigQuery now that varientsets.export has been deprecated?

我已将变体集加载到 Cloud Genomics 中,并试图将其导出到 BigQuery。我尝试的第一种方法是使用此处详述的管道:

https://cloud.google.com/genomics/docs/how-tos/load-variants

然而,20 分钟后,它失败了。根据 StackDriver 错误报告,这似乎是 VCF 文件中的问题,但我无法解释如何修复它:

ValueError: Invalid record in VCF file. Error: list index out of range
at next (/usr/local/lib/python2.7/dist-packages/gcp_variant_transforms/beam_io/vcfio.py:476)
at read_records (/usr/local/lib/python2.7/dist-packages/gcp_variant_transforms/beam_io/vcfio.py:398)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:48)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:44)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:39)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:38)
at execute (/usr/local/lib/python2.7/dist-packages/dataflow_worker/executor.py:167)
at do_work (/usr/local/lib/python2.7/dist-packages/dataflow_worker/batchworker.py:609)

所以我继续寻找其他选择。我转向 API:

https://cloud.google.com/genomics/reference/rest/v1/variantsets/export

我确保我的帐户是 BigQuery 管理员和 Genoimcs 变体集的所有者。我使用了以下参数:

{
  "projectId": "my-project",
  "format": "FORMAT_BIGQUERY",
  "bigqueryDataset": "my_dataset",
  "bigqueryTable": "new_table"
}

提交后,我收到以下错误:

{
  "error": {
    "code": 500,
    "message": "Unknown Error.",
    "status": "UNKNOWN"
  }
}

我也从命令行尝试过:gcloud alpha genomics variantsets export variantset_id bigquery_table --bigquery-dataset=my-dataset --bigquery-project=my-project

但这也给了我一个 500 未知错误。我已经回顾了几个小时,文档非常稀疏。

拜托,我可能遗漏了什么?

感谢您提出这个问题。我们在六个月前弃用了 Variants API,因为我们发现人们用它做的第一件事是 BQ 导出。

因此,我们发布了一个全新的 FOSS 工具,Variant Transforms,它可以简单地完成这项任务,但性能更高。

Link

实际上,我们本周刚刚发布了新版本。请看一看,让我们知道您的想法。

除了代码和文档,您还会在那里看到很多我们的产品 路线图

请评论并分享您的想法!

仅供参考,我们很快就会停用 Variants API

Jonathan(下午,生物医学数据,Google 云)

VCF 文件中的一行或多行格式不正确,不符合 spec.

我们刚刚发布了一个 preprocessor/validator 工具,可以显示所有此类格式错误的记录的报告。请试一试:https://github.com/googlegenomics/gcp-variant-transforms/blob/master/docs/vcf_files_preprocessor.md(请 运行 和 --report_all_conflicts 以确保您获得完整报告)。

如果发现只有少数记录格式错误,那么您可以在 VCF 文件中手动修复它们,或者 运行 vcf_to_bq 管道 --allow_malformed_records,这将跳过格式错误的(只记录它们)并加载其余的。