字符串候选列表的模糊匹配
Fuzzy matching from string candidate list
我有一个公司名称列表,我正试图从大量 PDF 文档中解析这些名称。
我已经通过 Apache Tika 强制 PDF 提取原始文本,我已经读入了 200 家公司的列表。
我一直在尝试使用 FuzzyWuzzy 和 Spacy 的某种组合来提取所需的匹配项。
据我所知:
import spacy
from fuzzywuzzy import fuzz, process
nlp = spacy.load("en_core_web_sm")
doc = nlp(strings[1])
companies = []
candidates = []
for ent in doc.ents:
if ent.label_ == "ORG":
candidates.append(ent.text)
process.extractBests(company_name, candidates, score_cutoff=80)
我想做的是:
- 通读文档字符串
- 解析任何模糊的公司名称
比赛得分为 80+
- Return 中包含的公司名称
文档及其分数。
求助!
这是我填充的方式 candidates
-- mpg
是一个 Pandas DataFrame:
for s in mpg['name'].values:
doc = nlp(s)
for ent in doc.ents:
if ent.label_ == 'ORG':
candidates.append(ent.text)
然后假设我们有一个简短的汽车数据列表用于测试:
candidates = ['buick'
,'buick skylark'
,'buick estate wagon'
,'buick century']
下面的方法使用 fuzz.token_sort_ratio
,它被描述为 "returning a measure of the sequences' similarity between 0 and 100 but sorting the token before comparing." 试试这里部分记录的一些方法:https://github.com/seatgeek/fuzzywuzzy/issues/137
results = {} # dictionary to store results
companies = ['buick'] # you'll have more companies
for company in companies:
results[company] = process.extractBests(company,candidates,
scorer=fuzz.token_sort_ratio,
score_cutoff=50)
结果是:
In [53]: results
Out[53]: {'buick': [('buick', 100),
('buick skylark', 56),
('buick century', 56)]}
在这种情况下,使用 80 作为截止分数会比 50 更好。
我有一个公司名称列表,我正试图从大量 PDF 文档中解析这些名称。
我已经通过 Apache Tika 强制 PDF 提取原始文本,我已经读入了 200 家公司的列表。
我一直在尝试使用 FuzzyWuzzy 和 Spacy 的某种组合来提取所需的匹配项。
据我所知:
import spacy
from fuzzywuzzy import fuzz, process
nlp = spacy.load("en_core_web_sm")
doc = nlp(strings[1])
companies = []
candidates = []
for ent in doc.ents:
if ent.label_ == "ORG":
candidates.append(ent.text)
process.extractBests(company_name, candidates, score_cutoff=80)
我想做的是:
- 通读文档字符串
- 解析任何模糊的公司名称 比赛得分为 80+
- Return 中包含的公司名称 文档及其分数。
求助!
这是我填充的方式 candidates
-- mpg
是一个 Pandas DataFrame:
for s in mpg['name'].values:
doc = nlp(s)
for ent in doc.ents:
if ent.label_ == 'ORG':
candidates.append(ent.text)
然后假设我们有一个简短的汽车数据列表用于测试:
candidates = ['buick'
,'buick skylark'
,'buick estate wagon'
,'buick century']
下面的方法使用 fuzz.token_sort_ratio
,它被描述为 "returning a measure of the sequences' similarity between 0 and 100 but sorting the token before comparing." 试试这里部分记录的一些方法:https://github.com/seatgeek/fuzzywuzzy/issues/137
results = {} # dictionary to store results
companies = ['buick'] # you'll have more companies
for company in companies:
results[company] = process.extractBests(company,candidates,
scorer=fuzz.token_sort_ratio,
score_cutoff=50)
结果是:
In [53]: results
Out[53]: {'buick': [('buick', 100),
('buick skylark', 56),
('buick century', 56)]}
在这种情况下,使用 80 作为截止分数会比 50 更好。