在 Debian OS 上使用 pandas 从 github 存储库读取 csv 文件时出现奇怪的 csv 输出

Question

我在 csv 文件中有以下数据：

XG,612.0
YG,-1924.0500000000002
ZG,-959.085
A_mod,6.889112523645457
I1_mod,0.478595694542785
I2_mod,32.64258822366686

如果我用excel或者atom打开，一切正常。该文件位于我的 GitHub 存储库的文件夹中，我不知道这是否重要，应该不重要，但是当我使用 python 上的 pd.read_csv() 函数读取它时，我得到以下结果：

似乎 pandas 正在从文件中读取某种元数据，而不是文件本身。我是运行 python 来自 Jupyterlab 的 Debian Google 云 VM 实例上的 3.6。我认为所有这些都不是问题，但这是我第一次看到这种情况，我不知道发生了什么。

有人能告诉我如何解决这个问题并解释为什么会这样吗？

非常感谢您。

编辑

这些文件包含在通过 URL 从 github 网站克隆的本地文件夹中。所以基本上在你的本地机器上使用 git clone 应该会产生相同的效果。

在 python 中，我正在使用 pd.read_csv('my_file.csv')。

另一个奇怪的事情是，在我的 windows 10 个人计算机上，我完全可以读取文件。但是在 Google 云 VM 实例中使用完全相同的过程是我遇到这个奇怪问题的地方。

Answer 1

您正在查看 Git LFS 指针文件而不是实际文件。 version、oid 和 size 是 Git LFS spec 的一部分。 Git LFS 保留这些文件来代替存储库中的实际大数据文件。它们应该在结帐时无缝替换。

检查 git clone 在您得到错误结果的框中的输出。 Git LFS 似乎存在配置问题。

Strange csv output when csv file is read from a github repo using pandas on Debian OS