既然 varientsets.export 已被弃用，如何将 Cloud Genomics 变体集导出到 BigQuery？

Question

我已将变体集加载到 Cloud Genomics 中，并试图将其导出到 BigQuery。我尝试的第一种方法是使用此处详述的管道：

https://cloud.google.com/genomics/docs/how-tos/load-variants

然而，20 分钟后，它失败了。根据 StackDriver 错误报告，这似乎是 VCF 文件中的问题，但我无法解释如何修复它：

ValueError: Invalid record in VCF file. Error: list index out of range
at next (/usr/local/lib/python2.7/dist-packages/gcp_variant_transforms/beam_io/vcfio.py:476)
at read_records (/usr/local/lib/python2.7/dist-packages/gcp_variant_transforms/beam_io/vcfio.py:398)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:48)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:44)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:39)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:38)
at execute (/usr/local/lib/python2.7/dist-packages/dataflow_worker/executor.py:167)
at do_work (/usr/local/lib/python2.7/dist-packages/dataflow_worker/batchworker.py:609)

所以我继续寻找其他选择。我转向 API:

https://cloud.google.com/genomics/reference/rest/v1/variantsets/export

我确保我的帐户是 BigQuery 管理员和 Genoimcs 变体集的所有者。我使用了以下参数：

{
  "projectId": "my-project",
  "format": "FORMAT_BIGQUERY",
  "bigqueryDataset": "my_dataset",
  "bigqueryTable": "new_table"
}

提交后，我收到以下错误：

{
  "error": {
    "code": 500,
    "message": "Unknown Error.",
    "status": "UNKNOWN"
  }
}

我也从命令行尝试过：gcloud alpha genomics variantsets export variantset_id bigquery_table --bigquery-dataset=my-dataset --bigquery-project=my-project。

但这也给了我一个 500 未知错误。我已经回顾了几个小时，文档非常稀疏。

拜托，我可能遗漏了什么？

Answer 1

感谢您提出这个问题。我们在六个月前弃用了 Variants API，因为我们发现人们用它做的第一件事是 BQ 导出。

因此，我们发布了一个全新的 FOSS 工具，Variant Transforms，它可以简单地完成这项任务，但性能更高。

Link

实际上，我们本周刚刚发布了新版本。请看一看，让我们知道您的想法。

除了代码和文档，您还会在那里看到很多我们的产品 路线图。

请评论并分享您的想法！

仅供参考，我们很快就会停用 Variants API。

Jonathan（下午，生物医学数据，Google 云）

Answer 2

VCF 文件中的一行或多行格式不正确，不符合 spec.

我们刚刚发布了一个 preprocessor/validator 工具，可以显示所有此类格式错误的记录的报告。请试一试：https://github.com/googlegenomics/gcp-variant-transforms/blob/master/docs/vcf_files_preprocessor.md（请运行和 --report_all_conflicts 以确保您获得完整报告）。

如果发现只有少数记录格式错误，那么您可以在 VCF 文件中手动修复它们，或者运行 vcf_to_bq 管道 --allow_malformed_records，这将跳过格式错误的（只记录它们）并加载其余的。

既然 varientsets.export 已被弃用，如何将 Cloud Genomics 变体集导出到 BigQuery？

How is it possible to export a Cloud Genomics variantset to BigQuery now that varientsets.export has been deprecated?

google-bigquery

google-genomics