是否应该规范化输入 Universal Sentence Encoder 的数据?

Should data feed into Universal Sentence Encoder be normalized?

我目前正在为我的 B.Sc 使用 Tensor Flow 的通用句子编码器 (https://arxiv.org/pdf/1803.11175.pdf)。我研究提取摘要技术的论文。 在这项任务的绝大多数技术中(比如 https://www.aaai.org/ocs/index.php/IJCAI/IJCAI15/paper/view/11225/10855),句子首先被规范化(小写、停用词删除、词形还原),但我找不到提示是否应该首先将句子送入 USE归一化。是这样吗?重要吗?

选择真的取决于设计的应用。

关于停用词去除和词形还原:这些操作一般会从文本中去除一些内容,因此,它可以去除信息。但是,如果它没有产生影响,那么您可以删除。 (最好两者都试一下。一般来说,性能差异应该不会太大)。

小写取决于您使用的预训练模型(例如,在 BERT 中,您有 bert-base-uncasedbert-base-cased)和应用程序的选择。一种简单的验证方法是,将文本输入 USE 模型,获取其句子嵌入,然后将相同的输入文本小写并获取其句子嵌入。如果它们相同,则意味着您的模型不区分大小写。但是,如果它提供不同的嵌入,那么它是区分大小写的。 (由 运行 提供的程序 here,似乎 USE 区分大小写)。小写字母的选择同样取决于应用程序。