方面提取的监督学习方法

Supervised Learning Approach for Aspect Extraction

我正在为旅游领域的在线旅游评论开发方面级情感分析项目。

我有一个人工注释数据集,其中标记了方面术语、方面类别及其情感极性。

例如;

Sentence:

This beach was a wonderful time for a day party  it had a fun crowd and has a big bar with a great atmosphere. The food was delicious too.

上面的句子有以下方面术语标记;

{party#positive C} {crowd#positive C} {bar#positive C} {food#positive C}

以及以下方面类别;

{entertainment#positive C} {accommodation#positive C}

我想尝试一种 supervised learning 方法来训练模型以对句子中的方面术语进行分类。

我正在使用 Stanford CORENLP 库。但是对训练数据格式应该如何感到困惑?最好的方法是什么。

我见过有人使用 IOB notation 格式化训练数据来训练 NER 系统。我可以使用类似的方法来完成这项工作吗?比如,我如何格式化我的训练数据文件以从输入句子中获取上面提到的方面术语?

如果有人能指出正确的方向,我将不胜感激。

这个问题可以通过分解成更小的子任务来解决。一种可能的管道方法可能是:

  1. 第一阶段是方面术语提取,它将识别原始文本中的方面术语。这也可以分解为两个子任务。首先,您的系统需要在文本中标记属于方面术语的标记。让我们将这些标记的标记方面称为术语提及。这称为 命名实体识别 (NER)。接下来,如果您有一组预定义的方面术语 类,系统将需要 link 将在先前任务中找到的方面术语提及到那些 类。这称为 实体链接。值得注意的是,从您给出的示例中,标记的数据集尚不适合上述任务,因为标签未锚定在文本中。您可以通过猜测给定标签对应文本中的哪些标记来创建合适的数据集。这类似于 Distant Supervision 工作。

  2. 下一个任务是aspect term情感分类。 卷积神经网络 已用于句子和文档情感分类,但如果您在输入中提供要对其分类标记的标记,它们可能会适合您的目的。这在这项工作中称为位置嵌入:http://www.cs.nyu.edu/~thien/pubs/vector15.pdf