NLTagger:一次枚举多种类型的标签

NLTagger: enumerating tags of multiple types in one pass

使用 NLTagger class,我想知道是否有人可以推荐最直接的方法来枚举给定文本中的标记标记,但每个标记提取多个标记类型。例如,要枚举给定文本中的单词,为每个单词拉出 (lemma, lexical category)。

似乎 enumerateTags() 方法和关联的 NLTag class 具有每次枚举仅报告一种特定标签类型的限制。所以我可以通过对文本进行多次传递来实现我想要的,例如在第一次通过时拉出符合给定条件的字符串范围,然后在以后的通过中进行匹配。例如,我可以像这样对所有名词和动词进行词形还原:

let tagger = NLTagger(tagSchemes: [.lemma, .nameTypeOrLexicalClass])
tagger.string = //some text
let keyWordCategories: [NLTag] = [.noun, .verb]
let options: NLTagger.Options = [.omitPunctuation, .omitWhitespace, .joinNames]

// In the first pass, we're going to record which ranges are of categories we're interested in
var keywordRanges = Set<Range<String.Index>>(minimumCapacity: 200)

// First pass: which are the nouns and verbs?
tagger.enumerateTags(in: text.startIndex..<text.endIndex, unit: .word, scheme: .nameTypeOrLexicalClass, options: options) { tag, tokenRange in
    if let tag = tag {
        if (keyWordCategories.contains(tag)) {
            keywordRanges.insert(tokenRange)
        }
    }
    return true
}

// Second pass: lemmatise, filtering on just the nouns and verbs
tagger.enumerateTags(in: text.startIndex..<text.endIndex, unit: .word, scheme: .lemma, options: options) { tag, tokenRange in
    if let tag = tag {
        if (keywordRanges.contains(tokenRange)) {
            lemmas.insert(tag.rawValue)
        }
    }
    return true
}

此机制实现了所需的功能,但让我觉得这是一种笨拙且可能效率低下的处理方式。我本来希望能够一次枚举(引理,词汇类别)。我假设 NLTagger 实例在幕后缓存了一些东西,这样它就效率而言并不像看起来那么糟糕。但就代码的简单性而言,它仍然远非理想。任何更熟悉此 API 的人都可以建议这是否真的是预期的模式?

您可以使用 tags(in:unit:scheme:options:) 获取具体范围内的词条,而不是遍历标注器的每个词条:

let tagger = NLTagger(tagSchemes: [.lemma, .nameTypeOrLexicalClass])
tagger.string = text
let options: NLTagger.Options = [.omitPunctuation, .omitWhitespace, .joinNames]

let keyWordCategories = Set<NLTag>(arrayLiteral: .noun, .verb)
var lemmas = Set<String>()
let unit: NLTokenUnit = .word
tagger.enumerateTags(in: text.startIndex..<text.endIndex, unit: unit, scheme: .nameTypeOrLexicalClass, options: options) { tag, tokenRange in
    if tag.map(keyWordCategories.contains) == true {
        if let lemma = tagger.tags(in: tokenRange, unit: unit, scheme: .lemma, options: options).first?.0?.rawValue {
            lemmas.insert(lemma)
        }
    }
    return true
}