如何合并两个熊猫数据框之间的数据，其中一个数据框具有重复的索引值

Question

我有两个数据帧加载到 Pandas。每个数据框包含属性信息，由特定地块的 'pin' 索引。

第一个数据框 (df1) 表示历史销售数据。因为房产可以多次出售，索引值 ('pin') 会重复（即每次出售属性都会有一行以地块的 'pin' 作为索引号。如果属性在数据集中被卖出1次，index/'pin'是唯一的，如果被卖出5次，则index/'pin'在数据集中会出现5次).

第二个数据框 (df2) 是属性记录。同样，它们由唯一的包裹 pin 索引，但由于此数据框是每个属性的记录，因此每个索引值的 value_counts() 为 1（即索引值不重复）。

我想将数据添加到 df1 或创建一个新的数据框，以保持 df1 中的所有数据完好无损，但根据匹配的索引值添加 df2 中的值。

例如：df1 有列 ['SALE_YEAR'，'SALE_VALUE'] - 其中可以有多个具有相同索引值的行。 df2 有列 ['Address'、'SQFT']，其中索引值在数据框中都是唯一的。我想通过匹配索引值将 'Address' & 'SQFT' 数据点添加到 df1。

Merge() 和 Concat() 似乎不起作用。我相信这是因为语法很难将 df2 值处理/匹配到多个 df1 行。

视觉示例：

感谢您的帮助。

Answer 1

试试这个：

import pandas as pd
merged_df = pd.merge(left=df1, right=df2, on='PIN', how='left')

如果仍然无效，可能是 PIN 列的数据类型不匹配。

df1['PIN'] = df1['PIN'].astype(int)
df2['PIN'] = df2['PIN'].astype(int)

merged_df = pd.merge(left=df1, right=df2, on='PIN', how='left')

How do I merge data between two panda's data frames where one data frame has duplicate index values