Python 中的数据提取

Data Extraction in Python

我得到了一个包含三列的数据集。一栏有交易信息,一栏有商店编号,一栏有栏目。我的目标是使用实体提取从 300 家不同商店的交易信息列中提取商店编号。我在这背后的思考过程是做一些类似于公司如何使用词库搜索简历的关键词,因为我已经在单独的列中有了商店编号。我将 .csv 文件读入我的程序,并将商店编号存储到它们自己的数组中。我想弄清楚如何在交易信息栏中搜索这些商店编号。

到目前为止的代码:

import pandas as pd
import numpy as np

file = pd.read_csv(r'C:\Users\cspea\Desktop\assignment.csv')
print(file)

store_number_array = file['store_number'].to_numpy()
print(store_number_array)

示例数据集(.csv 格式):

transaction_descriptor,store_number,dataset
DOLRTREE 2257 00022574 ROSWELL,2257,train
AUTOZONE #3547,3547,train
TGI FRIDAYS 1485 0000,1485,train
BUFFALO WILD WINGS 003,3,train
J. CREW #568 0,568,train

如有任何提示,我们将不胜感激。提前感谢您的时间和帮助:)

试试这个:

df['c'] = df['transaction_descriptor'].apply(lambda x: (df[df['transaction_descriptor'].str.contains(x)]['store_number']))[0]
for index,row in df.loc[df['c'].isna(),:].iterrows():
    test_=df.loc[index,'store_number']
    test=df.loc[index,'transaction_descriptor']
    result=[s for s in test.split() if str(test_) in s]
    
    df.loc[index,'c']=result