Open Long-Tailed Recognition(OLTR):从自然分布的数据中学习并在包括头、尾和开放类的平衡测试集上优化分类精度。也就是对三个问题的综合

  1. imbalanced classification
  2. few-shot learning
  3. open-set recognition.

论文针对的问题:
Large-Scale Long-Tailed Recognition in an OpenWorld
OLTR不仅要在封闭环境中处理不平衡分类和few-shot learning问题,还要处理open-set recognition.现有的分类方法只集中在某一方面,当考虑到整体时,性能就会大大下降。

challenge:tail recognition robustness and open-set sensitivity

解决思路:

  1. 在头尾类之间共享视觉知识来提高识别的鲁棒性。
  2. 减少tail和open类之间的混淆来提高识别灵敏度。

贡献:

  1. 定义OLTR任务
  2. 提出了一种基于动态元嵌入的OLTR算法
    1. 通过将头尾嵌入的视觉关联起来处理尾部识别的健壮性,
    2. 通过视觉记忆动态校准来处理开放识别的敏感性。
  3. 组织了三个大型OLTR数据集:
    1. 以对象为中心的ImageNet
    2. 以场景为中心的MIT Places
    3. 以人脸为中心的MS1M。

dynamic meta-embedding

  1. direct feature,从输入图像中计算特征,对尾部数据缺乏足够的监督。
  2. memory feature,视觉记忆相关的诱发特征。从直接特性中检索内存**的summary,并将其合并到一个适合tail类元嵌入中。

model

Large-Scale Long-Tailed Recognition in an OpenWorld

  1. dynamic meta-embedding(vdirectv^{direct}):在头尾类之间传递知识
  2. modulated attention(vmemoryv^{memory}):在头尾之间保持判别
  3. meta embedding(vmetav^{meta})

vmemory=oTM:=i=1Koici v^{memory} = o^TM := \sum_{i=1}^{K}{o_ic_i}
vmeta=(1/γ)(vdirect+evmemory) v_{meta}=(1/\gamma)\cdot(v^{direct}+e\otimes v^memory)
γ:=reachability(vdirect,M)=minivdirectci2 \gamma := reachability(v^{direct},M) = min_i{||v^{direct}-c_i||_2}

  • Neighborhood Sampling 怎样采样??
  • centroids 是怎样计算的??
  • coefficients hallucinated???指的是什么
  • lightweight neural network 又指的是什么?
  • γ\gamma 作用???
  • self-attention?
  • modulated attention
  • Cosine Classifier

在数据集加载的时候:

  1. test 模式:会把test 和 open加载进去
  2. train模式:如果有sampler_dic,会按照sampler 方式采样,如果没有就按照系统,对于val的话,transform是不一样的

MA:(modulatedatt)
SA:(spatial_att)

view+permute
view+permute
view
matmul
matmul
softmax
matmul
matmul
permute+view+conv2d
view+Linear+softmax+view
multiply
multiply
add
输入X
g_x:conv2d
theta_x:conv2d
phi_x:conv2d
map_t_p
mask_t_p
map_
mask
spatial_att
final

centroids的计算:输入x 计算feature,相同类别的feature累加求平均值

相关文章:

  • 2021-05-30
猜你喜欢
  • 2021-12-11
  • 2021-05-30
  • 2021-07-01
  • 2022-01-08
  • 2021-04-03
  • 2021-10-28
相关资源
相似解决方案