既然 varientsets.export 已被弃用,如何将 Cloud Genomics 变体集导出到 BigQuery?
How is it possible to export a Cloud Genomics variantset to BigQuery now that varientsets.export has been deprecated?
我已将变体集加载到 Cloud Genomics 中,并试图将其导出到 BigQuery。我尝试的第一种方法是使用此处详述的管道:
https://cloud.google.com/genomics/docs/how-tos/load-variants
然而,20 分钟后,它失败了。根据 StackDriver 错误报告,这似乎是 VCF 文件中的问题,但我无法解释如何修复它:
ValueError: Invalid record in VCF file. Error: list index out of range
at next (/usr/local/lib/python2.7/dist-packages/gcp_variant_transforms/beam_io/vcfio.py:476)
at read_records (/usr/local/lib/python2.7/dist-packages/gcp_variant_transforms/beam_io/vcfio.py:398)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:48)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:44)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:39)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:38)
at execute (/usr/local/lib/python2.7/dist-packages/dataflow_worker/executor.py:167)
at do_work (/usr/local/lib/python2.7/dist-packages/dataflow_worker/batchworker.py:609)
所以我继续寻找其他选择。我转向 API:
https://cloud.google.com/genomics/reference/rest/v1/variantsets/export
我确保我的帐户是 BigQuery 管理员和 Genoimcs 变体集的所有者。我使用了以下参数:
{
"projectId": "my-project",
"format": "FORMAT_BIGQUERY",
"bigqueryDataset": "my_dataset",
"bigqueryTable": "new_table"
}
提交后,我收到以下错误:
{
"error": {
"code": 500,
"message": "Unknown Error.",
"status": "UNKNOWN"
}
}
我也从命令行尝试过:gcloud alpha genomics variantsets export variantset_id bigquery_table --bigquery-dataset=my-dataset --bigquery-project=my-project
。
但这也给了我一个 500 未知错误。我已经回顾了几个小时,文档非常稀疏。
拜托,我可能遗漏了什么?
感谢您提出这个问题。我们在六个月前弃用了 Variants API
,因为我们发现人们用它做的第一件事是 BQ 导出。
因此,我们发布了一个全新的 FOSS 工具,Variant Transforms,它可以简单地完成这项任务,但性能更高。
实际上,我们本周刚刚发布了新版本。请看一看,让我们知道您的想法。
除了代码和文档,您还会在那里看到很多我们的产品 路线图。
请评论并分享您的想法!
仅供参考,我们很快就会停用 Variants API
。
Jonathan(下午,生物医学数据,Google 云)
VCF 文件中的一行或多行格式不正确,不符合 spec.
我们刚刚发布了一个 preprocessor/validator 工具,可以显示所有此类格式错误的记录的报告。请试一试:https://github.com/googlegenomics/gcp-variant-transforms/blob/master/docs/vcf_files_preprocessor.md(请 运行 和 --report_all_conflicts
以确保您获得完整报告)。
如果发现只有少数记录格式错误,那么您可以在 VCF 文件中手动修复它们,或者 运行 vcf_to_bq
管道 --allow_malformed_records
,这将跳过格式错误的(只记录它们)并加载其余的。
我已将变体集加载到 Cloud Genomics 中,并试图将其导出到 BigQuery。我尝试的第一种方法是使用此处详述的管道:
https://cloud.google.com/genomics/docs/how-tos/load-variants
然而,20 分钟后,它失败了。根据 StackDriver 错误报告,这似乎是 VCF 文件中的问题,但我无法解释如何修复它:
ValueError: Invalid record in VCF file. Error: list index out of range
at next (/usr/local/lib/python2.7/dist-packages/gcp_variant_transforms/beam_io/vcfio.py:476)
at read_records (/usr/local/lib/python2.7/dist-packages/gcp_variant_transforms/beam_io/vcfio.py:398)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:48)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:44)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:39)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:38)
at execute (/usr/local/lib/python2.7/dist-packages/dataflow_worker/executor.py:167)
at do_work (/usr/local/lib/python2.7/dist-packages/dataflow_worker/batchworker.py:609)
所以我继续寻找其他选择。我转向 API:
https://cloud.google.com/genomics/reference/rest/v1/variantsets/export
我确保我的帐户是 BigQuery 管理员和 Genoimcs 变体集的所有者。我使用了以下参数:
{
"projectId": "my-project",
"format": "FORMAT_BIGQUERY",
"bigqueryDataset": "my_dataset",
"bigqueryTable": "new_table"
}
提交后,我收到以下错误:
{
"error": {
"code": 500,
"message": "Unknown Error.",
"status": "UNKNOWN"
}
}
我也从命令行尝试过:gcloud alpha genomics variantsets export variantset_id bigquery_table --bigquery-dataset=my-dataset --bigquery-project=my-project
。
但这也给了我一个 500 未知错误。我已经回顾了几个小时,文档非常稀疏。
拜托,我可能遗漏了什么?
感谢您提出这个问题。我们在六个月前弃用了 Variants API
,因为我们发现人们用它做的第一件事是 BQ 导出。
因此,我们发布了一个全新的 FOSS 工具,Variant Transforms,它可以简单地完成这项任务,但性能更高。
实际上,我们本周刚刚发布了新版本。请看一看,让我们知道您的想法。
除了代码和文档,您还会在那里看到很多我们的产品 路线图。
请评论并分享您的想法!
仅供参考,我们很快就会停用 Variants API
。
Jonathan(下午,生物医学数据,Google 云)
VCF 文件中的一行或多行格式不正确,不符合 spec.
我们刚刚发布了一个 preprocessor/validator 工具,可以显示所有此类格式错误的记录的报告。请试一试:https://github.com/googlegenomics/gcp-variant-transforms/blob/master/docs/vcf_files_preprocessor.md(请 运行 和 --report_all_conflicts
以确保您获得完整报告)。
如果发现只有少数记录格式错误,那么您可以在 VCF 文件中手动修复它们,或者 运行 vcf_to_bq
管道 --allow_malformed_records
,这将跳过格式错误的(只记录它们)并加载其余的。