是否应该规范化输入 Universal Sentence Encoder 的数据？

Should data feed into Universal Sentence Encoder be normalized?

我目前正在为我的 B.Sc 使用 Tensor Flow 的通用句子编码器 (https://arxiv.org/pdf/1803.11175.pdf)。我研究提取摘要技术的论文。在这项任务的绝大多数技术中（比如 https://www.aaai.org/ocs/index.php/IJCAI/IJCAI15/paper/view/11225/10855），句子首先被规范化（小写、停用词删除、词形还原），但我找不到提示是否应该首先将句子送入 USE归一化。是这样吗？重要吗？

选择真的取决于设计的应用。

关于停用词去除和词形还原：这些操作一般会从文本中去除一些内容，因此，它可以去除信息。但是，如果它没有产生影响，那么您可以删除。（最好两者都试一下。一般来说，性能差异应该不会太大）。

小写取决于您使用的预训练模型（例如，在 BERT 中，您有 bert-base-uncased 和 bert-base-cased）和应用程序的选择。一种简单的验证方法是，将文本输入 USE 模型，获取其句子嵌入，然后将相同的输入文本小写并获取其句子嵌入。如果它们相同，则意味着您的模型不区分大小写。但是，如果它提供不同的嵌入，那么它是区分大小写的。（由运行提供的程序 here，似乎 USE 区分大小写）。小写字母的选择同样取决于应用程序。

是否应该规范化输入 Universal Sentence Encoder 的数据？

Should data feed into Universal Sentence Encoder be normalized?

python

nlp

artificial-intelligence

tensorflow