使用 NLP/语义相似性从与一组预定义指南相关的大型文档中提取关键字的方法

Methods to extract keywords from large documents that are relevant to a set of predefined guidelines using NLP/ Semantic Similarity

我需要有关如何从大型文档中提取关键字的建议。关键字应该内联我们定义为预期搜索结果的内容。

例如，

我需要所有者的姓名、办公室所在的位置、在提供有关公司的文件时所从事的行业以及定义的词组，

{owner, director, office, industry...}-(1)

预期输出必须类似于

{Mr.Smith James, ,Main Street, Financial Banking}-(2)

我正在寻找一种与语义相似度相关的方法，其中包含与给定语料库 (1) 相似的单词的句子将被提取，并使用 POS 标记从这些句子中提取名词。

如果能提供支持此方法的更多资源，那将会很有用。

你想做的事情被称为Named Entity Recognition。

在 Python 中有一个名为 SpaCy that can be used for that. The standard models are able to detect 18 different entity types 的流行库，数量相当不错。

人名和公司名应该很容易提取，而完整地址和行业可能更难提取。也许您必须在这些实体类型上训练自己的模型。 SpaCy 还提供了 API 用于训练您自己的模型。请注意，您需要大量的训练数据才能获得不错的结果。从每个实体类型 1000 个示例开始，看看它是否足以满足您的需求。 POS 可以用作一个功能。

如果您的数据是非结构化的，这可能是最适合的方法之一。如果你有更多的结构化数据，你也许可以利用它。