使用 Google 自然问题 (NQ) 数据集

Using the Google Natural Questions (NQ) Dataset

我想使用 Google 的自然问题 (NQ) 作为我正在构建的聊天机器人的数据集。我已经使用 gsutil -m cp -R gs://natural_questions/v1.0 <path to your data directory> 从 Google Cloud 下载了数据,但不知道如何使用这些数据(我的意思是 unarchive/load 到 DB/load 到 .csv 文件) .数据以 .gstmp 存档文件格式的形式存在。

文件命名为nq-train-00.jsonl.gz_.gstmp, nq-train-01.jsonl.gz_.gstmp ...等等。

我似乎无法取消存档此文件,有人可以帮我解决这个问题吗?谢谢!

这是数据集的 link:https://ai.google.com/research/NaturalQuestions

.gstmp 文件是根据 Google Cloud Platform Github Repository Release 4.14

下载仍在进行中或尚未完成时生成的临时文件