对文本进行分类的 NLP 步骤或方法?
NLP-steps or approch to classify text?
我正在开展一个项目,根据情绪(正面或负面)对餐厅评论进行分类。另外我想分类一下,如果这些评论属于食物,服务,物有所值等类别。我无法 link 互联网上提供的步骤或方法。谁能提供详细的方法或步骤来解决问题。
使用词袋模型怎么样。它已经被尝试和测试了多年。与更现代的方法相比,它有一些缺点,但您仍然可以获得不错的结果。互联网上有大量 material 可以帮助您:
- 将文档规范化为管道可摄取的形式
- 将文档转换为向量并执行TF-IDF以过滤不相关的术语。
Here is a good tutorial。并将它们转换为矢量形式。
- 拆分您的文档获取一些文档子集,并根据 classes(情感)/评论类型标记属于训练数据的文档。很明显,您的文档将属于两个 classes.
- 应用某种降维技术使您的模型更加稳健,good discussion is here
- 根据您的训练数据训练您的模型。您至少需要两个模型,一个用于情绪,一个用于类型。某些算法仅适用于二进制 classes,因此您可能需要的不仅仅是评论类型(食品、价值、服务)的模型。这可能是一件好事,因为评论可以属于多个 class(食品质量和价值,或价值和服务)。 Scikit-learn has a lot of good models, also I highly recommend orange toolbox 它就像是数据科学的 GUI。
- 使用验证集验证您的模型。如果您的准确度令人满意(大多数 class 像 SVM 这样的典型方法应该给您至少 90%)继续并将其用于传入数据
我正在开展一个项目,根据情绪(正面或负面)对餐厅评论进行分类。另外我想分类一下,如果这些评论属于食物,服务,物有所值等类别。我无法 link 互联网上提供的步骤或方法。谁能提供详细的方法或步骤来解决问题。
使用词袋模型怎么样。它已经被尝试和测试了多年。与更现代的方法相比,它有一些缺点,但您仍然可以获得不错的结果。互联网上有大量 material 可以帮助您:
- 将文档规范化为管道可摄取的形式
- 将文档转换为向量并执行TF-IDF以过滤不相关的术语。 Here is a good tutorial。并将它们转换为矢量形式。
- 拆分您的文档获取一些文档子集,并根据 classes(情感)/评论类型标记属于训练数据的文档。很明显,您的文档将属于两个 classes.
- 应用某种降维技术使您的模型更加稳健,good discussion is here
- 根据您的训练数据训练您的模型。您至少需要两个模型,一个用于情绪,一个用于类型。某些算法仅适用于二进制 classes,因此您可能需要的不仅仅是评论类型(食品、价值、服务)的模型。这可能是一件好事,因为评论可以属于多个 class(食品质量和价值,或价值和服务)。 Scikit-learn has a lot of good models, also I highly recommend orange toolbox 它就像是数据科学的 GUI。
- 使用验证集验证您的模型。如果您的准确度令人满意(大多数 class 像 SVM 这样的典型方法应该给您至少 90%)继续并将其用于传入数据