如何使用 pandas' 记录链接中的两列编写索引块?
How to write an index block using two columns in pandas' record-linkage?
我想做一对index
,条件是比较数据库的两个columns
的信息相等。可以用记录联动的index
class实现吗?
# dfg and dfm are databases that both contain the columns 'N_name' and 'N_cp'
import recordlinkage as rl
indexer_try = rl.Index()
indexer_try.block('N_name','N_name','N_cp','N_cp')
candidate_links = indexer_try.index(dfg, dfm)
我希望 class 创建包含符合这些条件的索引的多索引。
相反,我得到了,init() 接受 1 到 3 个位置参数,但给出了 5 个
需要将列作为数组包含在内
# Indexation step
import recordlinkage as rl
indexer = rl.Index()
indexer.block(['N_name'],['N_name']) # 25k
indexer.block(['N_address', 'N_cp'],['N_address','N_cp']) #211k
indexer.block('latlng', 'latlng') # 320k
candidate_links = indexer.index(dfg, dfm)
我想做一对index
,条件是比较数据库的两个columns
的信息相等。可以用记录联动的index
class实现吗?
# dfg and dfm are databases that both contain the columns 'N_name' and 'N_cp'
import recordlinkage as rl
indexer_try = rl.Index()
indexer_try.block('N_name','N_name','N_cp','N_cp')
candidate_links = indexer_try.index(dfg, dfm)
我希望 class 创建包含符合这些条件的索引的多索引。
相反,我得到了,init() 接受 1 到 3 个位置参数,但给出了 5 个
需要将列作为数组包含在内
# Indexation step
import recordlinkage as rl
indexer = rl.Index()
indexer.block(['N_name'],['N_name']) # 25k
indexer.block(['N_address', 'N_cp'],['N_address','N_cp']) #211k
indexer.block('latlng', 'latlng') # 320k
candidate_links = indexer.index(dfg, dfm)