Pandas 从 Excel 读取时将整数转换为实数
Pandas converts integer numbers to real numbers when reading from Excel
我最近开始探索 python 以分析 excel 数据。
我有一个包含两个工作表的 excel 文件,每个工作表都有一个矩阵(m = 1000 行和 n= 999 列)。两个矩阵的元素相互关联:其中一个矩阵涉及位移值和另一个矩阵涉及对应于每个位移的力值。位移和相应的力是从 m=1000 次数值模拟和 n=999 增量中获得的。是否可以识别仅对应于整数位移值的力值?或者,作为替代方案,是否可以将位移矩阵中的所有十进制数替换为 0?我试图将 excel 文件读入 Pandas 数据帧,但是位移矩阵中的所有值似乎都显示为“实数”(例如数字“1”、“2”、“3”、 excel 中的等用浮点数表示为“1.”、“2.”、“3.”(在 python 中)。
感谢您的关注。
让我们做一个更小比例的例子(3 * 3)。
我准备了一个 Excel 文件,有 2 张纸并阅读了它们:
displ = pd.read_excel('Input_2.xlsx', 'Displ')
forces = pd.read_excel('Input_2.xlsx', 'Forces')
两个 DataFrame 包含:
displ forces
C1 C2 C3 C1 C2 C3
0 10.0 12.1 11.3 0 120.1 130.2 140.3
1 12.5 13.0 13.5 1 150.4 160.5 170.6
2 12.6 13.6 13.8 2 180.7 190.8 200.9
识别 displ 中包含整数的元素
(实际上,仍然是 float 数字,但带有小数
零件 == 0.0), 你可以 运行:
displ.mod(1.0) == 0.0
你会得到:
C1 C2 C3
0 True False False
1 False True False
2 False False False
并得到相应的force值和NaN
对于其他值,您可以 运行:
forces.where(displ.mod(1.0) == 0.0)
得到:
C1 C2 C3
0 120.1 NaN NaN
1 NaN 160.5 NaN
2 NaN NaN NaN
另一种选择是在 displ 中获取索引列表,其中
对应元素的小数部分为零。
实际上它是一个 Numpy 函数,所以它在
底层 Numpy 数组和 returns integer (zero-based)
指数:
ind = np.nonzero((displ.mod(1.0) == 0.0).values)
结果是:
(array([0, 1], dtype=int64), array([0, 1], dtype=int64))
所以它是索引的 2 元组:
- 行索引,
- 列索引。
您还可以从
forces,实际上也来自底层的 Numpy 数组,
运行宁:
forces.values[ind]
结果是:
array([120.1, 160.5])
要用零替换 displ 的“整数”元素,您
可以 运行:
displ.mask(displ.mod(1.0) == 0.0, 0, inplace=True)
现在 displ 包含:
C1 C2 C3
0 0.0 12.1 11.3
1 12.5 0.0 13.5
2 12.6 13.6 13.8
请注意,“想要的”元素仍然是 float 零,
但这是 Pandas 的一个特点,即每一列都有 一个
类型,适合此列中的所有元素(在本例中只是 float)。
我最近开始探索 python 以分析 excel 数据。 我有一个包含两个工作表的 excel 文件,每个工作表都有一个矩阵(m = 1000 行和 n= 999 列)。两个矩阵的元素相互关联:其中一个矩阵涉及位移值和另一个矩阵涉及对应于每个位移的力值。位移和相应的力是从 m=1000 次数值模拟和 n=999 增量中获得的。是否可以识别仅对应于整数位移值的力值?或者,作为替代方案,是否可以将位移矩阵中的所有十进制数替换为 0?我试图将 excel 文件读入 Pandas 数据帧,但是位移矩阵中的所有值似乎都显示为“实数”(例如数字“1”、“2”、“3”、 excel 中的等用浮点数表示为“1.”、“2.”、“3.”(在 python 中)。 感谢您的关注。
让我们做一个更小比例的例子(3 * 3)。
我准备了一个 Excel 文件,有 2 张纸并阅读了它们:
displ = pd.read_excel('Input_2.xlsx', 'Displ')
forces = pd.read_excel('Input_2.xlsx', 'Forces')
两个 DataFrame 包含:
displ forces
C1 C2 C3 C1 C2 C3
0 10.0 12.1 11.3 0 120.1 130.2 140.3
1 12.5 13.0 13.5 1 150.4 160.5 170.6
2 12.6 13.6 13.8 2 180.7 190.8 200.9
识别 displ 中包含整数的元素 (实际上,仍然是 float 数字,但带有小数 零件 == 0.0), 你可以 运行:
displ.mod(1.0) == 0.0
你会得到:
C1 C2 C3
0 True False False
1 False True False
2 False False False
并得到相应的force值和NaN 对于其他值,您可以 运行:
forces.where(displ.mod(1.0) == 0.0)
得到:
C1 C2 C3
0 120.1 NaN NaN
1 NaN 160.5 NaN
2 NaN NaN NaN
另一种选择是在 displ 中获取索引列表,其中 对应元素的小数部分为零。 实际上它是一个 Numpy 函数,所以它在 底层 Numpy 数组和 returns integer (zero-based) 指数:
ind = np.nonzero((displ.mod(1.0) == 0.0).values)
结果是:
(array([0, 1], dtype=int64), array([0, 1], dtype=int64))
所以它是索引的 2 元组:
- 行索引,
- 列索引。
您还可以从 forces,实际上也来自底层的 Numpy 数组, 运行宁:
forces.values[ind]
结果是:
array([120.1, 160.5])
要用零替换 displ 的“整数”元素,您 可以 运行:
displ.mask(displ.mod(1.0) == 0.0, 0, inplace=True)
现在 displ 包含:
C1 C2 C3
0 0.0 12.1 11.3
1 12.5 0.0 13.5
2 12.6 13.6 13.8
请注意,“想要的”元素仍然是 float 零, 但这是 Pandas 的一个特点,即每一列都有 一个 类型,适合此列中的所有元素(在本例中只是 float)。