【问题标题】:Should data feed into Universal Sentence Encoder be normalized?输入 Universal Sentence Encoder 的数据是否应该标准化?
【发布时间】:2021-02-23 14:05:04
【问题描述】:

我目前正在为我的 B.Sc 使用 Tensor Flow 的通用句子编码器 (https://arxiv.org/pdf/1803.11175.pdf)。我研究提取摘要技术的论文。 在这项任务的绝大多数技术中(如https://www.aaai.org/ocs/index.php/IJCAI/IJCAI15/paper/view/11225/10855),句子首先被规范化(小写、停用词删除、词形还原),但我找不到提示是否应该首先对输入到 USE 的句子进行规范化。是这样吗?重要吗?

【问题讨论】:

标签: python tensorflow nlp artificial-intelligence


【解决方案1】:

选择真的取决于设计的应用。

关于停用词删除和词形还原:这些操作通常会从文本中删除一些内容,因此,它可以删除信息。但是,如果它没有产生影响,那么您可以删除。 (最好都尝试一下。一般来说性能差异应该不会太大)。

小写取决于您使用的预训练模型(例如,在 BERT 中,您有 bert-base-uncasedbert-base-cased)和应用程序的选择。一种简单的验证方法是将文本输入到 USE 模型中,获得它的句子嵌入,然后将相同的输入文本小写并获得它的句子嵌入。如果它们相同,则意味着您的模型不区分大小写。但是,如果它给出不同的嵌入,那么它是区分大小写的。 (通过运行here 提供的程序,USE 似乎区分大小写)。小写字母的选择再次取决于应用程序。

【讨论】:

    猜你喜欢
    • 2020-01-30
    • 2021-05-07
    • 2019-08-18
    • 2020-11-19
    • 2020-05-26
    • 2019-03-28
    • 2022-07-23
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多