我怎么知道这个模型可以预测哪些类？答案

【问题标题】：How do i know what classes can this model predict?我怎么知道这个模型可以预测哪些类？
【发布时间】：2022-10-23 23:47:42
【问题描述】：

假设我有一个预训练模型模型.pt

我怎么知道班级这个模型可以预测吗？

我认为它保存在模型中，但我如何提取它？

我试图了解https://github.com/AndreyGuzhov/AudioCLIP 的作用

它有一个预训练的AudioCLIP-Full-Training.pt

我怎么知道里面的标签或类AudioCLIP-Full-Training.pt

【问题讨论】：

标签： python machine-learning pytorch classification

【解决方案1】：

看看它的演示笔记本：https://github.com/AndreyGuzhov/AudioCLIP/blob/master/demo/AudioCLIP.ipynb。

作为 CLIP 模型，分类中使用的标签是模型输入。

【讨论】：

那么预训练模型只能预测 5 个类别？我在该标签上添加了一个“狗”，它确实识别出了狗的音频。这证明了它可以识别的不仅仅是 5 个类

【解决方案2】：

正如@lauthu 已经说过的，首先要看的地方是笔记本： https://github.com/AndreyGuzhov/AudioCLIP/blob/master/demo/AudioCLIP.ipynb。

笔记本提到了这些标签

LABELS = ['cat', 'thunderstorm', 'coughing', 'alarm clock', 'car horn']

笔记本只显示了 5 个类的示例。但是还有更多可能，请参见下文。

寻找课程的另一个地方是 AudioCLIP 的论文。该论文提到 AudioCLIP 是在具有 632 个音频类的 AudioSet 数据集上进行训练的。见the entire ontology of labels here。因此，它可以轻松预测 AudioCLIP 所训练的这 632 个类。

除了这 632 个类之外，由于 AudioCLIP 基于CLIP 架构，它还具有AudioCLIP paper 中所述的零样本推理能力：

“保持 CLIP 以零样本方式泛化到看不见的数据集的能力”。

它本质上意味着你可以使用任何常见的英语概念/单词，并且 AudioCLIP 应该能够对声音进行分类，即使它没有经过训练。这是可能的，因为 AudioCLIP 是 CLIP 的扩展，并且 CLIP 模型在其约 400M（图像、标题）对的数据集中“看到”了许多自然英语单词。

【讨论】：

那么预训练模型只能预测 5 个类别？我在该标签上添加了一个“狗”，它确实识别出了狗的音频。这证明了它可以识别的不仅仅是 5 个类