哪个 model/technique 用于特定的句子提取？

Which model/technique to use for specific sentence extraction?

我有一个客户和客户支持之间数以万计的对话/对话的数据集。这些对话可能是论坛帖子，也可能是冗长的电子邮件对话，都经过手工注释以突出显示包含客户问题的句子。例如：

Dear agent, I am writing to you because I have a very annoying problem with my washing machine. I bought it three weeks ago and was very happy with it. However, this morning the door does not lock properly. Please help

Dear customer.... etc

突出显示的句子是：

However, this morning the door does not lock properly.

我可以采用什么方法对此进行建模，以便将来可以自动提取客户问题？数据集的领域很广泛，但在硬件 space 内，因此它可能是电器、小工具、机械等
这种类型的问题叫什么？我认为这可能被称为“意图识别”，但大多数指南似乎都指的是多类分类。这句话要么是要么不是客户的问题。我考虑过分析每个句子并执行二元分类，但我想探索尽可能考虑到对话其余部分上下文的选项。
有哪些资源可用于研究如何在 Python 中实现这一点（使用 tensorflow 或 pytorch）

我找到了一个model on HuggingFace，它已经用客户对话进行了预训练，并且已经阅读了研究论文，所以我正在考虑将其作为起点进行微调，但我只有文本方面的经验(multiclass/multilabel) 变压器的分类

这类要从原文中提取客户问题的问题称为提取摘要，此类任务由Sequence2Sequence 模型解决。

这种类型的模型被称为Sequence2Sequence的主要原因是因为这种模型的输入和输出都是文本。

我建议你使用一个名为 Pegasus 的 transformers 模型，它已经 pre-trained 来预测屏蔽文本，但它的主要应用是 fine-tuned 用于文本摘要（提取或抽象）。

Transformers library, which provides you with a simple but powerful way of fine-tuning transformers with custom datasets. I think this notebook 上列出的这个 Pegasus 模型对于指导和理解如何fine-tune 这个 Pegasus 模型非常有用。

如果你想从原始输入文本中得到一个特定的句子（不做任何修改），通常称为 'span classification' 其中输出是特定句子的第一个和最后一个单词的索引句子。 state-of-the-art 现在是像 BERT 这样的注意力模型 .您可以检查为 huggingface 中的 'span classification' 问题设计的 Bert 模型作为使用 TensorFlow 或 PyTorch 库的 RobertaForQuestionAnswering https://huggingface.co/docs/transformers/model_doc/roberta#transformers.TFRobertaForQuestionAnswering。

哪个 model/technique 用于特定的句子提取？

Which model/technique to use for specific sentence extraction?

python

nlp

tensorflow

pytorch

huggingface-transformers