对文档中的单词进行分类
Classifying words inside a document
我面临的问题是:
我想读取一个文档,得到这个文档的原始字符串,并对信息进行分类。
例如,我想识别字符串何时是 "Name" 或 "date" 或其他一些有用的信息。
是否可以使用机器学习来做到这一点?
我该如何解决这个问题?
这里最难的问题是我不是要对文档本身进行分类,而是要对文档内部的String信息进行分类。
所以这完全取决于您如何看待您的问题。我认为您的问题可以表述为一个实体 extraction/recognition 问题,您有一个文档并希望在 文本中识别特定实体 (其中一个实体可能是一个人,日期等)。查看条件随机场及其在命名实体识别(简称 NER)中的应用,因为已经实现了一些库和工具。
例如,查看 StanfordNER。
我面临的问题是: 我想读取一个文档,得到这个文档的原始字符串,并对信息进行分类。 例如,我想识别字符串何时是 "Name" 或 "date" 或其他一些有用的信息。
是否可以使用机器学习来做到这一点? 我该如何解决这个问题?
这里最难的问题是我不是要对文档本身进行分类,而是要对文档内部的String信息进行分类。
所以这完全取决于您如何看待您的问题。我认为您的问题可以表述为一个实体 extraction/recognition 问题,您有一个文档并希望在 文本中识别特定实体 (其中一个实体可能是一个人,日期等)。查看条件随机场及其在命名实体识别(简称 NER)中的应用,因为已经实现了一些库和工具。
例如,查看 StanfordNER。