执行命名实体识别 - NLP

Question

我正在尝试学习如何执行命名实体识别。

我有一组出院小结，其中包含有关患者的医疗信息。我将非结构化数据转换为结构化数据。现在，我有一个看起来像这样的 DataFrame：

Text                        |   Target
normal coronary arteries...     R060

Text 列包含有关患者诊断的信息，Target 列包含需要在进一步任务中预测的代码。

我还构建了一个字典，如下所示：

Code (Key) | Term (Value)
A00          Cholera

这本词典提供了有关每个诊断和传入代码的信息。 term 列将用于识别语料库中的临床实体。

我需要训练一个分类器并预测代码，以便自动执行为出院摘要分配代码的过程（我解释这个是为了了解我正在执行的任务）。

到目前为止，我已经将我的数据转换为结构化数据。我试图了解我应该如何执行命名实体识别来标记医学术语。我想尝试直接匹配和模糊匹配，但我不确定前面的步骤是什么。我应该先进行分词、词干化、词形还原吗？或者首先我应该找到医学术语，因为临床命名实体通常是具有嵌套结构的多标记术语，其中包含其他命名实体？另外，您推荐我在 Python 中使用哪些软件包或工具？

我是这个领域的新手，所以我们将不胜感激！谢谢！

Answer 1

如果你要求建立分类模型，那么你应该去深度学习。深度学习在分类方面非常高效。

在处理此类语言处理任务时，我建议您先对文本进行标记化并进行填充。基本的标记化应该足够了，但是你可以进行更多的预处理，比如基本的字符串处理，因为适当的预处理可以将你的模型精度提高 3% 或 4%。对于基本的字符串处理，可以在python.

中使用regex(built-in package called re)

https://docs.python.org/3/library/re.html

我想，你是在预处理之后做映射。映射对于分类之类的任务应该足够了，但我建议您学习词嵌入。词嵌入将改进您的模型。

对于所有这些任务，我建议您使用 tensorflow。 Tensorflow 是机器学习、语言处理、图像处理等领域的著名工具。您可以从官方的 tensorflow 文档中学习自然语言处理。他们在 tensorflow 教程部分提供了所有学习 material。

https://www.tensorflow.org/tutorials/

我想，这会对你有所帮助。祝您工作顺利！！！

谢谢。

执行命名实体识别 - NLP

Perform Named Entity Recognition - NLP

python

nlp

named-entity-recognition

fuzzywuzzy