Deep Visual Foresight for Planning Robot Motion

问题
方法概述
预测模型

本文自建数据集
图像分布的理解
预测模型
网络结构

实验设计

问题

机器的运动需要用户手动设计，进行运动规划，而不是仅仅给出一个控制目标。
机器人需要对环境建模，对周围物体进行建模，在处理未建模的新物体时，机器如何完成任务(robotic manipulation using learned predictive video models with eneralization to new,previously unseen objects)。
机器人面对真实任务时，如何处理具体情况的多变性，复杂性，当情况出现异常，环境建模出现误差时，如推杯子时对杯子内液体测量的不准确、摩擦系数的错误设计（建模误差）。

方法概述

本文建立了一个

预测模型

建立了一个视频预测模型，将底层的感知(connects low-level perception)和物理预测(physical prediction)联系起来，

本文自建数据集

图像分布的理解

图像的分布：假设彩色图像是64x64大小，则相当于图像的分布满足一个多变量分布函数，变量的总数是64x64x3。**即每一个像素都是一个单变量分布，而整幅图像的所有像素构成了一个多变量分布。**建模为多变量分布的好处之一是：帮助更好的formulate图像的生成过程。图像的生成，可以看作是从一个多变量分布函数中进行随机采样。当我们使用照相机拍了一张照片，也就相当于从自然界中采样了一张图像。另外，将图像的生成建模为多变量分布，可以利用“像素中间存在依赖关系”这一先验，完成“图像填充”、“图像分割”等任务。¹

预测模型

模型的输入：

当前图像和上一帧图像 $I_{0:1}$
当前和上一次的执行器末端位姿 $x_{0:1}$
未来的动作序列 $a_{1:H_{p}}$ —— $H_{p}$ 为预测域

该预测模型根据被执行的动作 $a_{1:H_{p}}$ 预测未来一段时间的图像 $I_{2:H_{p+1}}$ 的分布。

网络结构

Deep Visual Foresight for Planning Robot Motion
本文的视频预测模型用了"Unsupervised Learning for Physical Interaction through Video Prediction"中提出的视频预测模型。²
在该网络中，基础的层为卷积循环神经网络，参照"Convolutional LSTM network: A machine learning approach for precipitation nowcasting"。³

实验设计

action-conditioned视频预测模型能否处理在先前训练时没见过的新物体？
完全由原图像像素信息训练出的视频预测模型是否可以对物体的物理行为进行有意义且有效的推断？