用于生物医学命名实体识别(NER)的 Scispacy

Scispacy for biomedical named entitiy recognition(NER)

如何使用 scispacy 标记实体?

当我尝试使用 scispacy 执行 NER 时,它通过将它们标记为 Entity 来识别生物医学实体,但未能将它们标记为 gene/protein,等等。那么如何我使用 scispacy 来做到这一点?还是 scispacy 无法标记数据?附上图片供参考: jupyter notebook snippet

模型 en_core_sci_smen_core_sci_mden_core_sci_lg 没有命名它们的实体。如果您想要标记实体,请使用模型

  • en_ner_craft_md
  • en_ner_jnlpba_md
  • en_ner_bc5cdr_md
  • en_ner_bionlp13cg_md

每个都有自己的实体类型,请参阅:-

https://allenai.github.io/scispacy/

了解更多信息

您可以通过'GENE_OR_GENE_PRODUCT'过滤标签以获取所有基因名称。

import spacy
import scispacy
import en_ner_bionlp13cg_md

document = "We aimed to prospectively compare the risk of early progression according to circulating ESR1 mutations, CA-15.3, and circulating cell-free DNA in MBC patients treated with a first-line aromatase inhibitor (AI)"

nlp = spacy.load("en_ner_bionlp13cg_md")
for X in nlp(document).ents:
    if X.label_=='GENE_OR_GENE_PRODUCT':
        print(X.text)