使用 Matcher spaCy 只匹配最大的模式而不匹配子模式

Question

我正在使用 Matcher class 和 spaCy v3.1.3。从句子中提取模式。

我有一个名为“Inteval”的标签和两个我想要捕获的模式。然而，最大的模式（下面显示的第二个“模式”）是由第一个“模式”中指定的子模式组成的，我希望当有来自最大模式的匹配时，只提取最大的模式而不是子模式。

例如，我的句子包含以下类型的字符串：“500 km até 543 km”、“13 a 22 km”、“550 km - 500 km”和“568 km até 420 km até 190 km” .我希望它们都具有相同的标签（“间隔”）。在这种情况下：“568 km até 420 km até 190 km”，有没有办法只提取“568 km até 420 km até 190 km”而不提取：“568 km até 420 km”，“420 km até 190”千米"?

import spacy
from spacy.matcher import Matcher

nlp = spacy.load('pt_core_news_lg')

UN = ['km']

TEXTS = ['500 km até 543 km', 'de 568 km até 420 km até 190 km', 'de 700 km até 400 km até 100 km']

matcher = Matcher(nlp.vocab)

# Examples: 
# 500 km até 543 km
# 13 a 22 km
# 550 km - 500 km
pattern = []
pattern.append([{'POS': 'NUM'}, 
                {'OP': '?', 'TEXT': {'IN': UN}}, 
                {'TEXT': {'IN': ['a', 'até', '-']}}, 
                {'POS': 'NUM'}, 
                {'TEXT': {'IN': UN}}
                ]) 

# Example:
# 568 km até 420 km até 190 km    
pattern.append([{'POS': 'NUM'}, 
                {'OP': '?', 'TEXT': {'IN': UN}}, 
                {'TEXT': {'IN': ['a', 'até']}}, 
                {'POS': 'NUM'}, 
                {'TEXT': {'IN': UN}},
                {'TEXT': {'IN': ['a', 'até']}}, 
                {'POS': 'NUM'}, 
                {'TEXT': {'IN': UN}}                     
                ]) 
    
matcher.add('Intervalo', pattern)

TRAINING_DATA = []

for doc in nlp.pipe(TEXTS):
    spans = [doc[start:end] for match_id, start, end in matcher(doc)]
    entities = [(span.start_char, span.end_char, "Intervalo") for span in spans]
    training_example = (doc.text, {"entities": entities})
    TRAINING_DATA.append(training_example)

print(*TRAINING_DATA, sep="\n")

结果：

('500 km até 543 km', {'entities': [(0, 17, 'Intervalo')]})
('de 568 km até 420 km até 190 km', {'entities': [(3, 20, 'Intervalo'), (3, 31, 'Intervalo'), (14, 31, 'Intervalo')]})
('de 700 km até 400 km até 100 km', {'entities': [(3, 20, 'Intervalo'), (3, 31, 'Intervalo'), (14, 31, 'Intervalo')]})

Answer 1

您正在直接使用 Matcher，但如果您改用 EntityRuler（就像里面的 Matcher），它将自动为您处理 - 当匹配重叠时，它需要最长的一个，或者如果长度相等，则较早开始的那个。

使用 Matcher spaCy 只匹配最大的模式而不匹配子模式

Match only the largest pattern and not sub patterns with Matcher spaCy

spacy-3