继Social LSTM、Social GAN模型后的进一步提升,在理想的监控俯瞰数据库ETH、UCY上进行数据的预测。重点贡献有:

  • 引入了注意力机制使模型自主分配对交互信息的关注。
  • 舍弃了L2代价函数,引入基于互信息的Information Loss,增强了模型对多合理轨迹的预测能力。
  • 提供了一种能够验证各模型的多轨迹预测能力的小型合成场景和轨迹生成效果的判断指标。

info gan
模型框架具体来说是InfoGAN,InfoGAN网络解决的是在无监督的情况下通过修改latent code倾向从而控制GAN的生成分布,与GAN相比其强调latent code对生成的控制性,与cGAN相比其强调能够在有潜在类别的数据中无监督(无数据标签)学习。因而GAN网络中新引入了Latent Code和Information Loss两个结构。

原理

  1. Motivation:
    InfoGAN训练后的理想状态是通过调整Latent Code(潜码)——????输入控制生成的分布。然而GAN自由灵活性很高,网络很容易直接忽视Latent Code的存在,因此必须调整代价函数使网络重视Latent Code的存在。InfoGAN提出使用互信息????作为优化目标,????越大则潜码和生成的关系越大:
    I(X;Y)=H(X)H(XY) I(X ; Y)=H(X)-H(X | Y)

  2. ????(????)是信息熵的计算,文章中在此假定????(????)是一个固定的值,因此优化目标转化为令????(????|????)最大化。
    信息熵的计算公式:H(X)=E[I(xi)]=i=1NP(xi)logP(xi)H(X)=E\left[I\left(x_{i}\right)\right]=-\sum_{i=1}^{N} P\left(x_{i}\right) \log P\left(x_{i}\right)
    具体计算:H(cx)=ExG(z,c)[EcP(cx)[logP(cx)]]H(c | x)=-E_{x \sim G(z, c)}\left[E_{c^{\prime} \sim P(c | x)}\left[\log P\left(c^{\prime} | x\right)\right]\right]

  3. 需要后验概率????(????|????),要获取其非常困难,因此使用????(????|????)(辅助分布)来近似求解后验的概率????(????|????),并且作者通过数学推导了在互信息的计算中????(????|????)和????(????|????)间的关系:

  4. I(c;G(z,c))=H(c)H(cG(z,c))=ExG(z,c)[DcP(cx)[logP(cx)]]0+H(c)=ExG(z,c)[DKL(P(x)Q(x))0+EcP(cx)[logQ(cx)]]+H(c)ExG(z,c)[DKL(P(x)0)[logQ(cx)]]+H(c) \begin{aligned} I(c ; G(z, c)) &=H(c)-H(c | G(z, c)) \\ &=\mathbb{E}_{x \sim G(z, c)}[\underbrace{\left.D_{c^{\prime} \sim P(c | x)}\left[\log P\left(c^{\prime} | x\right)\right]\right]}_{\geq 0}+H(c)\\ &=\mathbb{E}_{x \sim G(z, c)}\left[\underbrace{D_{K L}(P(\cdot | x) \| Q(\cdot | x))}_{\geq 0}+\mathbb{E}_{c^{\prime} \sim P(c | x)}\left[\log Q\left(c^{\prime} | x\right)\right]\right]+H(c) \\ &\left.\geq \mathbb{E}_{x \sim G(z, c)}[\underbrace{D_{K L}(P(\cdot | x)}_{\geq 0})\left[\log Q\left(c^{\prime} | x\right)\right]\right]+H(c) \end{aligned}

相关文章: