【问题标题】:How do i know what classes can this model predict?我怎么知道这个模型可以预测哪些类?
【发布时间】:2022-10-23 23:47:42
【问题描述】:

假设我有一个预训练模型模型.pt

我怎么知道班级这个模型可以预测吗?

我认为它保存在模型中,但我如何提取它?

我试图了解https://github.com/AndreyGuzhov/AudioCLIP 的作用

它有一个预训练的AudioCLIP-Full-Training.pt

我怎么知道里面的标签或类AudioCLIP-Full-Training.pt

【问题讨论】:

    标签: python machine-learning pytorch classification


    【解决方案1】:

    看看它的演示笔记本:https://github.com/AndreyGuzhov/AudioCLIP/blob/master/demo/AudioCLIP.ipynb

    作为 CLIP 模型,分类中使用的标签是模型输入。

    【讨论】:

    • 那么预训练模型只能预测 5 个类别?我在该标签上添加了一个“狗”,它确实识别出了狗的音频。这证明了它可以识别的不仅仅是 5 个类
    【解决方案2】:

    正如@lauthu 已经说过的,首先要看的地方是笔记本: https://github.com/AndreyGuzhov/AudioCLIP/blob/master/demo/AudioCLIP.ipynb

    笔记本提到了这些标签

    LABELS = ['cat', 'thunderstorm', 'coughing', 'alarm clock', 'car horn']
    

    笔记本只显示了 5 个类的示例。但是还有更多可能,请参见下文。

    寻找课程的另一个地方是 AudioCLIP 的论文。 该论文提到 AudioCLIP 是在具有 632 个音频类的 AudioSet 数据集上进行训练的。见the entire ontology of labels here。 因此,它可以轻松预测 AudioCLIP 所训练的这 632 个类。

    除了这 632 个类之外,由于 AudioCLIP 基于CLIP 架构,它还具有AudioCLIP paper 中所述的零样本推理能力:

    “保持 CLIP 以零样本方式泛化到看不见的数据集的能力”。

    它本质上意味着你可以使用任何常见的英语概念/单词,并且 AudioCLIP 应该能够对声音进行分类,即使它没有经过训练。这是可能的,因为 AudioCLIP 是 CLIP 的扩展,并且 CLIP 模型在其约 400M(图像、标题)对的数据集中“看到”了许多自然英语单词。

    【讨论】:

    • 那么预训练模型只能预测 5 个类别?我在该标签上添加了一个“狗”,它确实识别出了狗的音频。这证明了它可以识别的不仅仅是 5 个类
    猜你喜欢
    • 2013-12-12
    • 2015-07-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-12-01
    相关资源
    最近更新 更多