read_excel 来自 Pandas 未读取所有数据（第一行缺少列）

Question

我有一个非常简单的 .xlsx 文件，pandas 没有完全读取第一行。这很奇怪，因为它只读取其中一列，而其他列是空白的。经过大量的试验和错误后，Excel 文件本身似乎隐藏了一些东西，因为如果我完全删除该行，然后再次键入它，那么它就可以工作了。

但是，我看不到任何视觉效果。如果我将文件导出为 .csv，那么 pandas 也可以。

我正在使用 python 3.7 和 pandas 1.1.5。我尝试升级 pandas 但我不能，pip 告诉我我正在使用最新的可用版本，即使我看到 pandas 1.3 可用。不确定这是否已在新版本中修复，如果是，我该如何安装它（我通过 Anaconda 在 Mac 和 Windows 上使用该应用程序）。

显示问题的 xlsx 文件在这里：

https://docs.google.com/spreadsheets/d/1Xze2DNCyIARG7vdGFh0aUGHnhfgkciV5/edit?usp=sharing&ouid=117900420544251849196&rtpof=true&sd=true

它只包含 header 和一行。就是这样。

阅读它的脚本是这样的：

import pandas as pd

print(f"pandas version is {pd.__version__}")
df = pd.read_excel('Book1.xlsx', dtype=str)
df = df.fillna('')
print(f"columns are {df.columns.tolist()}")
print(df)

输出是这样的：

anibal@~/PycharmProjects/CIUSSS$ python3 test.py
pandas version is 1.1.5
columns are ['Source']
                                                                         Source
SNOMED CT 115161005 Genus Abiotrophia (organism) Abiotrophia  Genus Abiotrophia

它应该在哪里：

anibal@~/PycharmProjects/CIUSSS$ python3 test.py
pandas version is 1.1.5
columns are ['Source', 'f2', 'f3', 'f4', 'f5']
      Source         f2                            f3           f4                 f5
0  SNOMED CT  115161005  Genus Abiotrophia (organism)  Abiotrophia  Genus Abiotrophia

有人可以告诉我在 API 中我是否应该做一些不同的事情才能阅读这篇文章吗？或者，如果我需要 pandas 的更新版本，如何使用 pip（然后在 anaconda 中）获取更新版本？

Answer 1

更新：确实是版本问题。我用 python 3.9.9 和 pandas 1.3.4 尝试了完全相同的文件，一切看起来都不错。

read_excel 来自 Pandas 未读取所有数据（第一行缺少列）

read_excel from Pandas not reading all data (missing columns from first row)

python

excel

dataframe

pandas

python-3.7