永远将 pandas 数据帧从 google colab 会话保存到我的 google 驱动器

Taking forever to save a pandas dataframe from google colab session to my google drive

我在我的 colab notebook 中安装了我的 google 驱动器,我有一个相当大的 pandas 数据框并尝试 mydf.to_feather(path) 我的 [=21] 中的路径=] 开车。预计它有 100 兆大,而且要花很长时间。

这是意料之中的事吗? colab 和 google 驱动器之间的网络 link 似乎不太好。任何人都知道服务器是否在相同的 region/zone?

我可能需要改变我的工作流程来避免这种情况。如果您有任何最佳实践或建议,请告诉我,除了所有 GCP(我希望没有这种延迟)之外的任何事情。

如果您发现从 google colab 调用 df.to_feather("somewhere on your gdrive") 并且它大约为 ~X00mb,您可能会发现性能不稳定。保存文件可能需要几分钟到一小时不等。我无法解释这种行为。

解决方法:首先保存到 /content/,colab 主机的本地目录。然后将文件从 /content 复制到您的 gdrive 安装目录。这对我来说似乎更一致、更快。就是解释不了为什么。to_feather 直接给gdrive 受了这么多苦。