执行命名实体识别 - NLP

Perform Named Entity Recognition - NLP

我正在尝试学习如何执行命名实体识别。

我有一组出院小结,其中包含有关患者的医疗信息。我将非结构化数据转换为结构化数据。现在,我有一个看起来像这样的 DataFrame

Text                        |   Target
normal coronary arteries...     R060

Text 列包含有关患者诊断的信息,Target 列包含需要在进一步任务中预测的代码。

我还构建了一个字典,如下所示:

Code (Key) | Term (Value)
A00          Cholera

这本词典提供了有关每个诊断和传入代码的信息。 term 列将用于识别语料库中的临床实体。

我需要训练一个分类器并预测代码,以便自动执行为出院摘要分配代码的过程(我解释这个是为了了解我正在执行的任务)。

到目前为止,我已经将我的数据转换为结构化数据。我试图了解我应该如何执行命名实体识别来标记医学术语。我想尝试直接匹配和模糊匹配,但我不确定前面的步骤是什么。我应该先进行分词、词干化、词形还原吗?或者首先我应该找到医学术语,因为临床命名实体通常是具有嵌套结构的多标记术语,其中包含其他命名实体?另外,您推荐我在 Python 中使用哪些软件包或工具?

我是这个领域的新手,所以我们将不胜感激!谢谢!

如果你要求建立分类模型,那么你应该去深度学习。深度学习在分类方面非常高效。

在处理此类语言处理任务时,我建议您先对文本进行标记化并进行填充。基本的标记化应该足够了,但是你可以进行更多的预处理,比如基本的字符串处理,因为适当的预处理可以将你的模型精度提高 3% 或 4%。对于基本的字符串处理,可以在python.

中使用regex(built-in package called re)

https://docs.python.org/3/library/re.html

我想,你是在预处理之后做映射。映射对于分类之类的任务应该足够了,但我建议您学习词嵌入。词嵌入将改进您的模型。

对于所有这些任务,我建议您使用 tensorflow。 Tensorflow 是机器学习、语言处理、图像处理等领域的著名工具。您可以从官方的 tensorflow 文档中学习自然语言处理。他们在 tensorflow 教程部分提供了所有学习 material。

https://www.tensorflow.org/tutorials/

我想,这会对你有所帮助。祝您工作顺利!!!

谢谢。