read_excel 来自 Pandas 未读取所有数据(第一行缺少列)

read_excel from Pandas not reading all data (missing columns from first row)

我有一个非常简单的 .xlsx 文件,pandas 没有完全读取第一行。这很奇怪,因为它只读取其中一列,而其他列是空白的。经过大量的试验和错误后,Excel 文件本身似乎隐藏了一些东西,因为如果我完全删除该行,然后再次键入它,那么它就可以工作了。

但是,我看不到任何视觉效果。如果我将文件导出为 .csv,那么 pandas 也可以。

我正在使用 python 3.7 和 pandas 1.1.5。我尝试升级 pandas 但我不能,pip 告诉我我正在使用最新的可用版本,即使我看到 pandas 1.3 可用。不确定这是否已在新版本中修复,如果是,我该如何安装它(我通过 Anaconda 在 Mac 和 Windows 上使用该应用程序)。

显示问题的 xlsx 文件在这里:

https://docs.google.com/spreadsheets/d/1Xze2DNCyIARG7vdGFh0aUGHnhfgkciV5/edit?usp=sharing&ouid=117900420544251849196&rtpof=true&sd=true

它只包含 header 和一行。就是这样。

阅读它的脚本是这样的:

import pandas as pd

print(f"pandas version is {pd.__version__}")
df = pd.read_excel('Book1.xlsx', dtype=str)
df = df.fillna('')
print(f"columns are {df.columns.tolist()}")
print(df)

输出是这样的:

anibal@~/PycharmProjects/CIUSSS$ python3 test.py
pandas version is 1.1.5
columns are ['Source']
                                                                         Source
SNOMED CT 115161005 Genus Abiotrophia (organism) Abiotrophia  Genus Abiotrophia

它应该在哪里:

anibal@~/PycharmProjects/CIUSSS$ python3 test.py
pandas version is 1.1.5
columns are ['Source', 'f2', 'f3', 'f4', 'f5']
      Source         f2                            f3           f4                 f5
0  SNOMED CT  115161005  Genus Abiotrophia (organism)  Abiotrophia  Genus Abiotrophia

有人可以告诉我在 API 中我是否应该做一些不同的事情才能阅读这篇文章吗?或者,如果我需要 pandas 的更新版本,如何使用 pip(然后在 anaconda 中)获取更新版本?

更新:确实是版本问题。我用 python 3.9.9 和 pandas 1.3.4 尝试了完全相同的文件,一切看起来都不错。