使用 Python 和 Spacy 从列中添加列

Add column from column using Python and Spacy

我有一个 BigQuery 数据仓库,其中包含来自 mongodb 数据库的所有数据,这些数据每天同步一次。

我想在我的 table 中添加一列,该列是另一列(类型为字符串)的清理 + 词形还原版本。我不能用 DBT 做到这一点,因为我需要使用 python 库 Spacy。我如何才能 运行 在我的 table 上进行这样的转换,而不必在本地获取所有数据并在 bigquery 上发送 10M 更新?是否有一些 GCP 工具可以 运行 python 针对像数据流之类的 bigquery 发挥作用?

更一般地说,当像 DBT 这样的工具不够用时,您如何转换数据?

感谢您的帮助!

你可以试试Dataflow Batch processing for your requirement since Dataflow is a fully managed service which can run a transformation on your table without downloading the data locally and spaCy library can be used along with the Dataflow pipelines. Although Bigquery and Dataflow is a managed service that can process larger amounts of data, it is always a best practice to split larger jobs into smaller ones for larger NLP jobs as discussed .

注意 - 由于您要添加的列是 table 中列的词形还原和清理版本,因此最好创建一个新目标 table.