输入 Universal Sentence Encoder 的数据是否应该标准化？答案

【问题标题】：Should data feed into Universal Sentence Encoder be normalized?输入 Universal Sentence Encoder 的数据是否应该标准化？
【发布时间】：2021-02-23 14:05:04
【问题描述】：

我目前正在为我的 B.Sc 使用 Tensor Flow 的通用句子编码器 (https://arxiv.org/pdf/1803.11175.pdf)。我研究提取摘要技术的论文。在这项任务的绝大多数技术中（如https://www.aaai.org/ocs/index.php/IJCAI/IJCAI15/paper/view/11225/10855），句子首先被规范化（小写、停用词删除、词形还原），但我找不到提示是否应该首先对输入到 USE 的句子进行规范化。是这样吗？重要吗？

【问题讨论】：

这个问题可能更适合AI 或data science 堆栈交换。

标签： python tensorflow nlp artificial-intelligence

【解决方案1】：

选择真的取决于设计的应用。

关于停用词删除和词形还原：这些操作通常会从文本中删除一些内容，因此，它可以删除信息。但是，如果它没有产生影响，那么您可以删除。（最好都尝试一下。一般来说性能差异应该不会太大）。

小写取决于您使用的预训练模型（例如，在 BERT 中，您有 bert-base-uncased 和 bert-base-cased）和应用程序的选择。一种简单的验证方法是将文本输入到 USE 模型中，获得它的句子嵌入，然后将相同的输入文本小写并获得它的句子嵌入。如果它们相同，则意味着您的模型不区分大小写。但是，如果它给出不同的嵌入，那么它是区分大小写的。（通过运行here 提供的程序，USE 似乎区分大小写）。小写字母的选择再次取决于应用程序。

【讨论】：