python 个人词典中的命名实体识别

Named Entity Recognition from personal dictionary in python

我有一个大型数据库,其中包含很多条目(大部分是电影),其中只有描述信息。 ID 为 1 的条目的描述(例如)可能如下所示:

'Forrest Gump is a 1994 American epic romantic-comedy-drama film based on the 1986 novel of the same name by Winston Groom. The film was directed by Robert Zemeckis and stars Tom Hanks, Robin Wright, Gary Sinise, Mykelti Williamson, and Sally Field.'

现在我也有一些txt文档,基本都是字典,结构是这样的:

actors.txt

Mickey Mouse
Tom Hanks
...

directors.txt

Donald Duck
Robert Zemeckis
...

我想做的是分析每个条目的描述并从我的字典中解析命名实体。因此,如果文本包含 'Tom Hanks',我想识别 ID 为 1 的条目中有 Tom Hanks 作为演员等。输出应该是这样的:

Actor: Tom Hanks, Actor: Robin Wright, Director: Robert Zemeckis, Distributor: Paramount Pictures.

或任何易于操作的格式。

您所要做的就是使用 SOLR,在其架构中设置一些新的字段类型(如 text_actors),这些字段类型链接到适当的词典,编写适当的架构,然后导入数据库。据我所知,这可以帮助您开发一个可搜索的数据库,您可以从中查询所有结果并填充您自己的数据库。