对文档中的单词进行分类

Classifying words inside a document

我面临的问题是: 我想读取一个文档,得到这个文档的原始字符串,并对信息进行分类。 例如,我想识别字符串何时是 "Name" 或 "date" 或其他一些有用的信息。

是否可以使用机器学习来做到这一点? 我该如何解决这个问题?

这里最难的问题是我不是要对文档本身进行分类,而是要对文档内部的String信息进行分类。

所以这完全取决于您如何看待您的问题。我认为您的问题可以表述为一个实体 extraction/recognition 问题,您有一个文档并希望在 文本中识别特定实体 (其中一个实体可能是一个人,日期等)。查看条件随机场及其在命名实体识别(简称 NER)中的应用,因为已经实现了一些库和工具。

例如,查看 StanfordNER