哪个 model/technique 用于特定的句子提取?

Which model/technique to use for specific sentence extraction?

我有一个客户和客户支持之间数以万计的对话/对话的数据集。这些对话可能是论坛帖子,也可能是冗长的电子邮件对话,都经过手工注释以突出显示包含客户问题的句子。例如:

Dear agent, I am writing to you because I have a very annoying problem with my washing machine. I bought it three weeks ago and was very happy with it. However, this morning the door does not lock properly. Please help

Dear customer.... etc

突出显示的句子是:

However, this morning the door does not lock properly.

  1. 我可以采用什么方法对此进行建模,以便将来可以自动提取客户问题?数据集的领域很广泛,但在硬件 space 内,因此它可能是电器、小工具、机械等
  2. 这种类型的问题叫什么? 我认为这可能被称为“意图识别”,但大多数指南似乎都指的是多类分类。这句话要么是要么不是客户的问题。我考虑过分析每个句子并执行二元分类,但我想探索尽可能考虑到对话其余部分上下文的选项。
  3. 有哪些资源可用于研究如何在 Python 中实现这一点(使用 tensorflow 或 pytorch)

我找到了一个model on HuggingFace,它已经用客户对话进行了预训练,并且已经阅读了研究论文,所以我正在考虑将其作为起点进行微调,但我只有文本方面的经验(multiclass/multilabel) 变压器的分类

这类要从原文中提取客户问题的问题称为提取摘要,此类任务由Sequence2Sequence 模型解决。

这种类型的模型被称为Sequence2Sequence的主要原因是因为这种模型的输入和输出都是文本。

我建议你使用一个名为 Pegasus 的 transformers 模型,它已经 pre-trained 来预测屏蔽文本,但它的主要应用是 fine-tuned 用于文本摘要(提取或抽象)。

Transformers library, which provides you with a simple but powerful way of fine-tuning transformers with custom datasets. I think this notebook 上列出的这个 Pegasus 模型对于指导和理解如何fine-tune 这个 Pegasus 模型非常有用。

如果你想从原始输入文本中得到一个特定的句子(不做任何修改),通常称为 'span classification' 其中输出是特定句子的第一个和最后一个单词的索引句子。 state-of-the-art 现在是像 BERT 这样的注意力模型 .您可以检查为 huggingface 中的 'span classification' 问题设计的 Bert 模型作为使用 TensorFlow 或 PyTorch 库的 RobertaForQuestionAnswering https://huggingface.co/docs/transformers/model_doc/roberta#transformers.TFRobertaForQuestionAnswering