在大型数据框中修改值的最有效方法 - Python
Most efficient method to modify values within large dataframes - Python
概述:我正在处理 pandas 人口普查信息数据框,虽然它们只有两列,但它们的长度却有数十万行。一列是人口普查区 ID 号,另一列是 'place' 值,该值对于该人口普查区 ID 所在的城市是唯一的。
示例数据:
BLOCKID PLACEFP
0 60014001001000 53000
1 60014001001001 53000
...
5844 60014099004021 53000
5845 60014100001000
5846 60014100001001
5847 60014100001002 53000
问题:如上所示,有几个地方值是空白的,尽管它们在相应的行中有人口普查区块 ID。我发现,在某些情况下,缺少位置值的人口普查块 ID 与周围没有缺少位置值的块位于同一城市内,尤其是当书挡位置值相同时 - 作为如上所示,索引为 5844 到 5847 - 这两个街区与周围的街区位于同一区域,但似乎缺少位置值。
目标:我希望能够遍历这个数据框,找到这些实例并根据缺失值之前的位值和紧随其后的位值来填充缺失的位值。
当前状态和障碍:我编写了一个遍历数据框的循环来纠正这些问题,如下所示。
current_state_blockid_df = pandas.DataFrame({'BLOCKID':[60014099004021,60014100001000,60014100001001,60014100001002,60014301012019,60014301013000,60014301013001,60014301013002,60014301013003,60014301013004,60014301013005,60014301013006],
'PLACEFP': [53000,,,53000,11964,'','','','','','',11964]})
for i in current_state_blockid_df.index:
if current_state_blockid_df.loc[i, 'PLACEFP'] == '':
#Get value before blank
prior_place_fp = current_state_blockid_df.loc[i - 1, 'PLACEFP']
next_place_fp = ''
_n = 1
# Find the end of the blank section
while next_place_fp == '':
next_place_fp = current_state_blockid_df.loc[i + _n, 'PLACEFP']
if next_place_fp == '':
_n += 1
# if the blanks could likely be in the same city, assign them the city's place value
if prior_place_fp == next_place_fp:
for _i in range(1, _n):
current_state_blockid_df.loc[_i, 'PLACEFP'] = prior_place_fp
但是,正如预期的那样,在处理数十万或行数据时非常慢。我考虑过使用 ThreadPool 执行器来拆分工作,但我还没有完全弄清楚我用来完成这项工作的逻辑。稍微加快速度的一种可能性是取消检查以查看间隙的末端位置,而只是用空白之前的前一个位置值填充它。虽然这可能最终成为我的目标,但它仍然有可能太慢,理想情况下我希望它只在前后值匹配时才填充,从而消除错误分配块的可能性。如果有人对如何快速实现这一目标有其他建议,我们将不胜感激。
您可以使用 shift
来帮助加快该过程。但是,这不能解决连续多个空格的情况。
df['PLACEFP_PRIOR'] = df['PLACEFP'].shift(1)
df['PLACEFP_SUBS'] = df['PLACEFP'].shift(-1)
criteria1 = df['PLACEFP'].isnull()
criteria2 = df['PLACEFP_PRIOR'] == df['PLACEFP_AFTER']
df.loc[criteria1 & criteria2, 'PLACEFP'] = df.loc[criteria1 & criteria2, 'PLACEFP_PRIOR']
如果您最终需要遍历数据框,请使用 df.itertuples
。您可以通过点符号 (row.column_name
).
访问行中的列值
for idx, row in df.itertuples():
# logic goes here
使用定义的数据框
def fix_df(current_state_blockid_df):
df_with_blanks = current_state_blockid_df[current_state_blockid_df['PLACEFP'] == '']
df_no_blanks = current_state_blockid_df[current_state_blockid_df['PLACEFP'] != '']
sections = {}
last_i = 0
grouping = []
for i in df_with_blanks.index:
if i - 1 == last_i:
grouping.append(i)
last_i = i
else:
last_i = i
if len(grouping) > 0:
sections[min(grouping)] = {'indexes': grouping}
grouping = []
grouping.append(i)
if len(grouping) > 0:
sections[min(grouping)] = {'indexes': grouping}
for i in sections.keys():
sections[i]['place'] = current_state_blockid_df.loc[i-1, 'PLACEFP']
l = []
for i in sections:
for x in sections[i]['indexes']:
l.append(sections[i]['place'])
df_with_blanks['PLACEFP'] = l
final_df = pandas.concat([df_with_blanks, df_no_blanks]).sort_index(axis=0)
return final_df
df = fix_df(current_state_blockid_df)
print(df)
输出:
BLOCKID PLACEFP
0 60014099004021 53000
1 60014100001000 53000
2 60014100001001 53000
3 60014100001002 53000
4 60014301012019 11964
5 60014301013000 11964
6 60014301013001 11964
7 60014301013002 11964
8 60014301013003 11964
9 60014301013004 11964
10 60014301013005 11964
11 60014301013006 11964
概述:我正在处理 pandas 人口普查信息数据框,虽然它们只有两列,但它们的长度却有数十万行。一列是人口普查区 ID 号,另一列是 'place' 值,该值对于该人口普查区 ID 所在的城市是唯一的。
示例数据:
BLOCKID PLACEFP
0 60014001001000 53000
1 60014001001001 53000
...
5844 60014099004021 53000
5845 60014100001000
5846 60014100001001
5847 60014100001002 53000
问题:如上所示,有几个地方值是空白的,尽管它们在相应的行中有人口普查区块 ID。我发现,在某些情况下,缺少位置值的人口普查块 ID 与周围没有缺少位置值的块位于同一城市内,尤其是当书挡位置值相同时 - 作为如上所示,索引为 5844 到 5847 - 这两个街区与周围的街区位于同一区域,但似乎缺少位置值。
目标:我希望能够遍历这个数据框,找到这些实例并根据缺失值之前的位值和紧随其后的位值来填充缺失的位值。
当前状态和障碍:我编写了一个遍历数据框的循环来纠正这些问题,如下所示。
current_state_blockid_df = pandas.DataFrame({'BLOCKID':[60014099004021,60014100001000,60014100001001,60014100001002,60014301012019,60014301013000,60014301013001,60014301013002,60014301013003,60014301013004,60014301013005,60014301013006],
'PLACEFP': [53000,,,53000,11964,'','','','','','',11964]})
for i in current_state_blockid_df.index:
if current_state_blockid_df.loc[i, 'PLACEFP'] == '':
#Get value before blank
prior_place_fp = current_state_blockid_df.loc[i - 1, 'PLACEFP']
next_place_fp = ''
_n = 1
# Find the end of the blank section
while next_place_fp == '':
next_place_fp = current_state_blockid_df.loc[i + _n, 'PLACEFP']
if next_place_fp == '':
_n += 1
# if the blanks could likely be in the same city, assign them the city's place value
if prior_place_fp == next_place_fp:
for _i in range(1, _n):
current_state_blockid_df.loc[_i, 'PLACEFP'] = prior_place_fp
但是,正如预期的那样,在处理数十万或行数据时非常慢。我考虑过使用 ThreadPool 执行器来拆分工作,但我还没有完全弄清楚我用来完成这项工作的逻辑。稍微加快速度的一种可能性是取消检查以查看间隙的末端位置,而只是用空白之前的前一个位置值填充它。虽然这可能最终成为我的目标,但它仍然有可能太慢,理想情况下我希望它只在前后值匹配时才填充,从而消除错误分配块的可能性。如果有人对如何快速实现这一目标有其他建议,我们将不胜感激。
您可以使用 shift
来帮助加快该过程。但是,这不能解决连续多个空格的情况。
df['PLACEFP_PRIOR'] = df['PLACEFP'].shift(1)
df['PLACEFP_SUBS'] = df['PLACEFP'].shift(-1)
criteria1 = df['PLACEFP'].isnull()
criteria2 = df['PLACEFP_PRIOR'] == df['PLACEFP_AFTER']
df.loc[criteria1 & criteria2, 'PLACEFP'] = df.loc[criteria1 & criteria2, 'PLACEFP_PRIOR']
如果您最终需要遍历数据框,请使用 df.itertuples
。您可以通过点符号 (row.column_name
).
for idx, row in df.itertuples():
# logic goes here
使用定义的数据框
def fix_df(current_state_blockid_df):
df_with_blanks = current_state_blockid_df[current_state_blockid_df['PLACEFP'] == '']
df_no_blanks = current_state_blockid_df[current_state_blockid_df['PLACEFP'] != '']
sections = {}
last_i = 0
grouping = []
for i in df_with_blanks.index:
if i - 1 == last_i:
grouping.append(i)
last_i = i
else:
last_i = i
if len(grouping) > 0:
sections[min(grouping)] = {'indexes': grouping}
grouping = []
grouping.append(i)
if len(grouping) > 0:
sections[min(grouping)] = {'indexes': grouping}
for i in sections.keys():
sections[i]['place'] = current_state_blockid_df.loc[i-1, 'PLACEFP']
l = []
for i in sections:
for x in sections[i]['indexes']:
l.append(sections[i]['place'])
df_with_blanks['PLACEFP'] = l
final_df = pandas.concat([df_with_blanks, df_no_blanks]).sort_index(axis=0)
return final_df
df = fix_df(current_state_blockid_df)
print(df)
输出:
BLOCKID PLACEFP
0 60014099004021 53000
1 60014100001000 53000
2 60014100001001 53000
3 60014100001002 53000
4 60014301012019 11964
5 60014301013000 11964
6 60014301013001 11964
7 60014301013002 11964
8 60014301013003 11964
9 60014301013004 11964
10 60014301013005 11964
11 60014301013006 11964