对文档中的单词进行分类

Classifying words inside a document

我面临的问题是：我想读取一个文档，得到这个文档的原始字符串，并对信息进行分类。例如，我想识别字符串何时是 "Name" 或 "date" 或其他一些有用的信息。

是否可以使用机器学习来做到这一点？我该如何解决这个问题？

这里最难的问题是我不是要对文档本身进行分类，而是要对文档内部的String信息进行分类。

所以这完全取决于您如何看待您的问题。我认为您的问题可以表述为一个实体 extraction/recognition 问题，您有一个文档并希望在文本中识别特定实体 （其中一个实体可能是一个人，日期等）。查看条件随机场及其在命名实体识别（简称 NER）中的应用，因为已经实现了一些库和工具。

例如，查看 StanfordNER。