如何在 pandas DataFrame 中按索引仅保留一组特定的行
How to keep only a certain set of rows by index in a pandas DataFrame
我有一个通过对 .fits 文件进行以下操作创建的 DataFrame:
data_dict= dict()
for obj in sortedpab:
for key in ['FIELD', 'ID', 'RA' , 'DEC' , 'Z_50', 'Z_84','Z_16' , 'PAB_FLUX', 'PAB_FLUX_ERR']:
data_dict.setdefault(key, list()).append(obj[key])
gooddf = pd.DataFrame(data_dict)
gooddf['Z_ERR']= ((gooddf['Z_84'] - gooddf['Z_50']) + (gooddf['Z_50'] - gooddf['Z_16'])) / (2 *
gooddf['Z_50'])
gooddf['OBS_PAB'] = 12820 * (1 + gooddf['Z_50'])
gooddf.loc[gooddf['FIELD'] == "ERS" , 'FIELD'] = "ERSPRIME"
gooddf = gooddf[['FIELD' , 'ID' , 'RA' , 'DEC' , 'Z_50' , 'Z_ERR' , 'PAB_FLUX' , 'PAB_FLUX_ERR' ,
'OBS_PAB']]
gooddf = gooddf[gooddf.OBS_PAB <= 16500]
这给了我一个包含 351 行和 9 列的 DataFrame。我只想根据某些索引保留行,我想例如做这样的事情:
indices = [5 , 6 , 9 , 10]
gooddf = gooddf[gooddf.index == indices]
我希望它只保留具有数组索引中列出的索引值的行,但这给我带来了问题。
我找到了一种使用 for 循环执行此操作的方法:
good = np.array([5 , 6 , 9 , 12 , 14 , 15 , 18 , 21 , 24 , 29 , 30 , 35 , 36 , 37 , 46 , 48 ])
gooddf50 = pd.DataFrame()
for i in range(len(good)):
gooddf50 = gooddf50.append(gooddf[gooddf.index == good[i]])
有没有想过如何以更好的方式做到这一点,最好只使用 pandas?
这样做就可以了:
gooddf.loc[indices]
重要说明:.iloc
和 .loc
做的事情略有不同,这就是为什么您可能会得到意想不到的结果。
您可以深入阅读索引 的详细信息,但要理解的关键是 .iloc
returns 行根据 位置 指定,而 .loc
returns 行根据指定的 索引标签 。因此,如果您的索引未排序,.loc
和 .iloc
将表现不同。
我有一个通过对 .fits 文件进行以下操作创建的 DataFrame:
data_dict= dict()
for obj in sortedpab:
for key in ['FIELD', 'ID', 'RA' , 'DEC' , 'Z_50', 'Z_84','Z_16' , 'PAB_FLUX', 'PAB_FLUX_ERR']:
data_dict.setdefault(key, list()).append(obj[key])
gooddf = pd.DataFrame(data_dict)
gooddf['Z_ERR']= ((gooddf['Z_84'] - gooddf['Z_50']) + (gooddf['Z_50'] - gooddf['Z_16'])) / (2 *
gooddf['Z_50'])
gooddf['OBS_PAB'] = 12820 * (1 + gooddf['Z_50'])
gooddf.loc[gooddf['FIELD'] == "ERS" , 'FIELD'] = "ERSPRIME"
gooddf = gooddf[['FIELD' , 'ID' , 'RA' , 'DEC' , 'Z_50' , 'Z_ERR' , 'PAB_FLUX' , 'PAB_FLUX_ERR' ,
'OBS_PAB']]
gooddf = gooddf[gooddf.OBS_PAB <= 16500]
这给了我一个包含 351 行和 9 列的 DataFrame。我只想根据某些索引保留行,我想例如做这样的事情:
indices = [5 , 6 , 9 , 10]
gooddf = gooddf[gooddf.index == indices]
我希望它只保留具有数组索引中列出的索引值的行,但这给我带来了问题。
我找到了一种使用 for 循环执行此操作的方法:
good = np.array([5 , 6 , 9 , 12 , 14 , 15 , 18 , 21 , 24 , 29 , 30 , 35 , 36 , 37 , 46 , 48 ])
gooddf50 = pd.DataFrame()
for i in range(len(good)):
gooddf50 = gooddf50.append(gooddf[gooddf.index == good[i]])
有没有想过如何以更好的方式做到这一点,最好只使用 pandas?
这样做就可以了:
gooddf.loc[indices]
重要说明:.iloc
和 .loc
做的事情略有不同,这就是为什么您可能会得到意想不到的结果。
您可以深入阅读索引 .iloc
returns 行根据 位置 指定,而 .loc
returns 行根据指定的 索引标签 。因此,如果您的索引未排序,.loc
和 .iloc
将表现不同。