机器学习 - 从文本中获取信息

Machine Learning - Derive information from a text

我是机器学习和监督学习领域的新手。

我的任务如下:我想从磁盘上电影文件的名称中检索有关该文件的一些元数据。我无法控制文件的命名方式,但它有一个标题和一个或多个附加信息,例如发行年份、决议、演员姓名等。

目前我开发了一个规则 heuristic-based 系统,我将名字分成标记并尝试理解每个单词可能代表什么,无论是单独的还是与相邻的单词。例如,为了检测人名,我使用了一个英文名字数据集,如果我在数据集中找到该词,则将其评分为潜在人名。如果与它相邻的是我作为潜在姓氏评分的词,我将这两个词评分为演员。等等。它具有不错的准确性,但手动将启发式分数更改为 "teach" 系统是乏味且不可预测的。

这样的rule-based系统很难维护或进一步发展,因此,出于好奇,我正在探索机器学习领域。我想知道的是:

谢谢,如有任何建议,我们将不胜感激。

您需要研究 NLP(自然语言处理)。 NLP处理文本处理和其他事情;例如实体识别和标记。

这里是一个使用 Spacy 库的例子:https://spacy.io/usage/linguistic-features.

前段时间我也做过类似的事情,你可以看这里:https://github.com/Erlemar/Erlemar.github.io/blob/master/Notebooks/Fate_Zero_explore.ipynb