NLP 分析请求

NLP to analyse requests

您好,我正在尝试分析大约 30000 个请求的描述以识别常见请求,因为数据没有标签或标题。

我看了很多关于情绪分析的内容,我目前认为我需要从一个小的随机样本中训练一个模型,以更好地对数据进行分类。

我应该遵循更好的方法吗?

在回答你的问题之前,我会说你正在寻找的解决方案与情绪分析有类似的解决方案,但情况不同。 如果您想对任何文档进行分组,您可以通过 2 种方法在 AI 中继续使用。

1- 监督学习(分类)

2- 无监督学习(聚类)

你的情况因为没有labeled(标记)数据,那么聚类就更方便了。

您可以生成 tf-idf 向量并将其用作描述中每个单词和文档的特征,并基于此对数据进行聚类。 根据您使用的编码语言,网络上有很多示例,但对于 java,您可以查看以下链接,

TextAnalyzer

Carrot Clustering