机器学习 - 从文本中获取信息
Machine Learning - Derive information from a text
我是机器学习和监督学习领域的新手。
我的任务如下:我想从磁盘上电影文件的名称中检索有关该文件的一些元数据。我无法控制文件的命名方式,但它有一个标题和一个或多个附加信息,例如发行年份、决议、演员姓名等。
目前我开发了一个规则 heuristic-based 系统,我将名字分成标记并尝试理解每个单词可能代表什么,无论是单独的还是与相邻的单词。例如,为了检测人名,我使用了一个英文名字数据集,如果我在数据集中找到该词,则将其评分为潜在人名。如果与它相邻的是我作为潜在姓氏评分的词,我将这两个词评分为演员。等等。它具有不错的准确性,但手动将启发式分数更改为 "teach" 系统是乏味且不可预测的。
这样的rule-based系统很难维护或进一步发展,因此,出于好奇,我正在探索机器学习领域。我想知道的是:
- 是否有关于此类问题的某种public文献?
- 鉴于可用数据集有限,机器学习是否是解决问题的好方法?
- 我将如何继续调试或尝试了解此类机器的结果?我开发的 "simplistic" 启发式引擎已经有问题了..
谢谢,如有任何建议,我们将不胜感激。
您需要研究 NLP(自然语言处理)。 NLP处理文本处理和其他事情;例如实体识别和标记。
这里是一个使用 Spacy 库的例子:https://spacy.io/usage/linguistic-features.
前段时间我也做过类似的事情,你可以看这里:https://github.com/Erlemar/Erlemar.github.io/blob/master/Notebooks/Fate_Zero_explore.ipynb
我是机器学习和监督学习领域的新手。
我的任务如下:我想从磁盘上电影文件的名称中检索有关该文件的一些元数据。我无法控制文件的命名方式,但它有一个标题和一个或多个附加信息,例如发行年份、决议、演员姓名等。
目前我开发了一个规则 heuristic-based 系统,我将名字分成标记并尝试理解每个单词可能代表什么,无论是单独的还是与相邻的单词。例如,为了检测人名,我使用了一个英文名字数据集,如果我在数据集中找到该词,则将其评分为潜在人名。如果与它相邻的是我作为潜在姓氏评分的词,我将这两个词评分为演员。等等。它具有不错的准确性,但手动将启发式分数更改为 "teach" 系统是乏味且不可预测的。
这样的rule-based系统很难维护或进一步发展,因此,出于好奇,我正在探索机器学习领域。我想知道的是:
- 是否有关于此类问题的某种public文献?
- 鉴于可用数据集有限,机器学习是否是解决问题的好方法?
- 我将如何继续调试或尝试了解此类机器的结果?我开发的 "simplistic" 启发式引擎已经有问题了..
谢谢,如有任何建议,我们将不胜感激。
您需要研究 NLP(自然语言处理)。 NLP处理文本处理和其他事情;例如实体识别和标记。
这里是一个使用 Spacy 库的例子:https://spacy.io/usage/linguistic-features.
前段时间我也做过类似的事情,你可以看这里:https://github.com/Erlemar/Erlemar.github.io/blob/master/Notebooks/Fate_Zero_explore.ipynb