我怎样才能找到这个声明中的模式来找到二氧化碳排放量

Question

在 Python 报告中，我可以使用哪种模式来识别此段落或仅使用 spacy 的相关句子？

“我们的范围 1 和范围 2 温室气体总量 2019 年的排放量为 260 万吨，导致温室气体强度因子为 0.014 公吨二氧化碳当量百万立方英尺当量产量。

我尝试使用一个模式，它使用了这个，但它似乎不起作用：

    pattern = [
       {'IS_DIGIT': True},
       {'LOWER': '(million metric tons)'},
       ]

Answer 1

对于您在此处给出的模式，模式中的每个字典都必须对应一个标记，但 (million metric tons) 不会是一个标记，因此它永远不会匹配任何内容。

你可以做的是使用一个短语模式，它使用文字文本，给 (million metric tons) 一个像 UNIT 这样的实体标签，然后在之后使用不同的实体标尺组件来匹配数字令牌后跟 UNIT 实体。

我建议您花时间通读 spaCy 文档中的全部 rule-based matching section，这将解释标记和短语模式之间的区别。

How can I find a pattern in this statement to find the CO2 emissions