See Better and Further with Super Res Zoom on the Pixel 3

长期以来，使用算法（而不是镜头）进行数字变焦一直是移动设备相机的“丑小鸭”。与数码单反相机的光学变焦功能相比，数字变焦图像的质量一直没有竞争力，并且传统观点认为，大型相机的复杂光学和机制无法用更紧凑的移动设备相机和聪明的算法来代替。

借助Pixel 3的新Super Res Zoom功能，我们正在挑战这一概念。

Pixel 3中的Super Res Zoom技术与以前任何基于放大单个图像的裁切效果的数字缩放技术不同，并且更好。因为我们将许多帧直接合并到高分辨率图片上。这样可以大大改善细节，与许多其他智能手机上的2倍光学变焦镜头相比具有相当的竞争力。超级分辨率缩放意味着，如果在按下快门之前先进行捏缩放，则与之后进行裁剪相比，您将在图片中获得更多细节。

The Challenges of Digital Zoom

数字缩放非常困难，因为人们期望好的算法从低分辨率的图像开始，然后可靠地“重建”缺失的细节-在典型的数字缩放中，单个图像的一小部分就会放大以产生更大的图像。传统上，这是通过线性插值方法来完成的，这些方法会尝试重新创建原始图像中不可用的信息，但要引入一种模糊或“可塑性”的外观，缺乏质感和细节。相反，大多数现代的单图像升频器使用机器学习（包括我们自己的早期作品RAISR）。这些可以放大某些特定的图像特征（例如笔直的边缘），甚至可以合成某些纹理，但是他们无法恢复自然的高分辨率细节。尽管我们仍然使用RAISR来增强图像的视觉质量，但Super Res Zoom所提供的大多数改进分辨率（至少对于2-3倍的适度缩放因子而言）都来自于我们的多帧方法。

Color Filter Arrays and Demosaicing

重建精细的细节特别困难，因为数码照片已经不完整了，通过称为去马赛克的过程从部分颜色信息中重建了它们。在典型的消费相机中，相机传感器元件只能测量光的强度，而不能直接测量其颜色。为了捕获场景中存在的真实色彩，相机使用位于传感器前面的滤色镜阵列，以便每个像素仅测量一种颜色（红色，绿色或蓝色）。如下图所示，它们以Bayer模式排列。

然后，相机处理管线必须在给出此部分信息的情况下重建所有像素上的真实色彩和所有细节。*去马赛克首先要对丢失的颜色信息做出最佳猜测，通常是从附近像素的颜色进行插值，这意味着RGB数字图片的三分之二实际上是重建图像！

以其最简单的形式，这可以通过对相邻值求平均值来实现。大多数真正的去马赛克算法要比这复杂得多，但是它们仍然导致不完善的结果和伪像-因为我们仅限于部分信息。尽管即使对于大型数码单反相机也存在这种情况，但与移动相机中的典型摄像头相比，其较大的传感器和较大的镜头可以捕获更多细节。

如果在移动设备上捏缩放，情况会变得更糟。然后，算法又不得不通过附近像素的插值来补充更多信息。但是，并非全部丢失。即使受到移动设备光学设备的限制，也可以在这里使用连拍摄影和多个图像的融合来实现超分辨率。

From Burst Photography to Multi-frame Super-resolution

虽然一帧图像不能提供足够的信息来填充缺失的颜色，但是我们可以从连续拍摄的多张图像中获得一些缺失的信息。捕获和组合多张连续照片的过程称为连拍照片。Google的HDR +算法已成功用于Nexus和Pixel手机中，它已经使用多帧信息来使手机中的照片达到更大传感器所预期的质量水平；可以使用类似的方法来提高图像分辨率吗？、

十多年来，包括在天文学中，其基本概念被称为“滴水”，众所周知，捕获和组合从略有不同的位置拍摄的多幅图像可以产生与光学变焦相当的分辨率，至少在低倍率（例如2倍）下或3倍，并在良好的照明条件下。在此过程中，称为多帧超分辨率，通常的想法是将低分辨率突发直接对齐并合并到所需（更高）分辨率的网格上。这是一个理想化的多帧超分辨率算法可能如何工作的示例：

See Better and Further with Super Res Zoom on the Pixel 3

与需要对缺失的颜色进行插值的标准去马赛克处理流水线（顶部）相比，理想情况下，可以从多个图像中填充一些孔，每个图像水平或垂直移动一个像素。

在上面的示例中，我们捕获了4个帧，其中三个帧正好在水平，垂直以及水平和垂直方向上偏移了一个像素。所有的漏洞都将被填补，根本不需要去马赛克！确实，某些DSLR相机支持此操作，但前提是相机位于三脚架上并且传感器/光学元件主动移动到其他位置。有时称为“微步进”。

多年以来，这种“超分辨率”方法用于高分辨率成像的实际使用仍主要局限于实验室，或者以其他方式进行控制设置，即传感器和对象对准并且故意控制或严格限制了它们之间的运动。例如，在天文成像中，固定望远镜会看到可预测的移动天空。但是在诸如现代智能手机之类的广泛使用的成像设备中，超分辨率在诸如移动设备相机之类的放大应用中的实际使用仍然遥不可及。

这部分是由于要使其正常工作，需要满足某些条件。首先，也是最重要的一点是，镜头需要比使用的传感器更好地解析细节（相反，您可以想象这样一种情况，即镜头的设计如此差，以至于添加更好的传感器不会带来任何好处）。通常将此特性视为数码相机的不需要的伪像，称为混叠。

Image Aliasing（图像混叠）

当相机传感器无法如实地表示场景中存在的所有样式和细节时，就会发生混淆。莫尔图案是一个很好的例子，有时由于不恰当的衣柜选择而在电视上看到莫尔图案。此外，当事物在场景中移动时，对物理特征（例如表的边缘）的混叠效果也会改变。您可以在以下连拍序列中观察到这一点，其中连拍序列中摄像机的轻微运动会产生随时间变化的混叠效果：

但是，这种行为是变相的祝福：如果分析所产生的图案，则可以如前一节所述为我们提供各种颜色和亮度值，以实现超分辨率。话虽如此，仍然存在许多挑战，因为实际的超分辨率需要与手持移动电话配合使用，并且可以在任何突发序列上使用。

Practical Super-resolution Using Hand Motion

如前所述，某些数码单反相机提供了特殊的三脚架超分辨率模式，其工作方式与我们到目前为止所描述的相似。这些方法取决于相机内部传感器和光学元件的物理运动，但否则需要完全稳定相机，这在移动设备中不可行，因为它们几乎总是手持的。这似乎为移动平台上的超分辨率成像创建了一个catch 22。

但是，通过利用我们的优势，我们克服了这个难题。当我们使用手持相机或手机拍摄一连串的照片时，画面之间总是存在一些运动。光学图像稳定（OIS）系统可补偿较大的相机运动-通常在相隔1/30秒的连续帧之间有5-20个像素-但是无法完全消除所有人（甚至包括“稳定手”的人）都会发生的更快，更低强度的自然手震。当使用带有高分辨率传感器的手机拍照时，这种手震的幅度只有几个像素。

要利用手部震颤，我们首先需要将图像连成一阵。我们选择连拍中的单个图像作为“基础”或参考帧，并相对于它对齐所有其他帧。对齐后，图像将大致按照本文前面所示的示意图组合在一起。当然，握手不太可能将图像移动单个像素，因此在将颜色注入基本帧的像素网格之前，我们需要在每个新捕获的帧的相邻像素之间进行内插。

当由于设备完全稳定（例如放在三脚架上）而没有手部动作时，通过强制OIS模块在两次拍摄之间略微移动，我们仍然可以通过有意地“摇动”相机来达到模拟自然手部动作的目的。该运动非常小，并且选择了这种运动，不会干扰普通照片-但您可以在Pixel 3上自己观察一下，方法是将手机完全静止不动，例如将其按在窗户上，并最大程度地捏住取景器。在远处的物体中寻找微小但连续的椭圆运动，如下图所示。

Overcoming the Challenges of Super-resolution

我们上面给出的理想过程的描述听起来很简单，但超分辨率却不那么容易-有很多原因使它没有在诸如手机之类的消费产品中得到广泛使用，并且需要进行重大的算法创新。挑战可能包括：

即使在良好的光线下，连拍中的单个图像噪声也很多。实用的超分辨率算法需要注意这种噪声，并且尽管有噪声也要正确工作。我们不想只获得更高分辨率的噪点图像-我们的目标是既要提高分辨率，又要产生更少的噪点结果。

连拍图像之间的运动不仅限于相机的运动。场景中可能会有复杂的动作，例如风吹的叶子，涟漪在水面上移动，汽车，移动或改变其面部表情的人或火焰的闪烁-即使是某些运动，因为它们是透明的或多层的，也无法为其分配唯一的运动估计值，例如烟雾或玻璃。通常不可能完全可靠地进行局部对齐，因此即使运动估计不完美，也需要一种好的超分辨率算法。

因为大部分运动是随机的，所以即使对齐得好，数据在图像的某些区域可能很密集，而在其他区域则很稀疏。超分辨率的症结是一个复杂的插值问题，因此数据的不规则散布使在网格的所有部分中生成更高分辨率的图像具有挑战性。

所有上述挑战似乎使现实世界中的超分辨率在实践中不可行，或者充其量只限于静态场景和放在三脚架上的相机。通过使用Pixel 3上的Super Res Zoom，我们开发了一种稳定，准确的突发分辨率增强方法，该方法利用自然的手部动作，并且足够健壮和高效，可以部署在手机上。

这是我们解决其中一些挑战的方法：

为了有效地合并帧，并为每个像素产生红色，绿色和蓝色的值，而无需去马赛克，我们开发了一种跨帧整合信息的方法，该方法考虑了图像的边缘并进行了相应调整。具体来说，我们分析输入帧并调整将它们组合在一起的方式，在细节和分辨率的提高与噪声抑制和平滑之间进行权衡。我们通过沿视在边缘的方向而不是跨像素合并像素来实现此目的。最终结果是，我们的多帧方法在降噪与细节增强之间达到了最佳的实际平衡。

为了使算法能够可靠地处理具有复杂局部运动（人，汽车，水或树叶运动）的场景，我们开发了一种可检测和缓解对齐误差的鲁棒性模型。我们选择一帧作为“参考图像”，并且只有在我们确定找到正确的对应功能后，才能将其他框架中的信息合并到其中。这样，我们可以避免出现“重影”或运动模糊之类的伪影以及图像的错误合并部分。

Pushing the State of the Art in Mobile Photography

去年的人像模式及其之前的HDR +管道展示了移动摄影的出色表现。今年，我们着手对变焦进行相同的操作。这是提高计算摄影技术水平的又一步骤，同时缩小了移动摄影和DSLR之间的质量差距。这是一张包含完整FOV图像的专辑，其后是Super Res Zoom图像。请注意，此相册中的Super Res Zoom图像不会被裁剪-它们是使用pinch-zoom直接在设备上捕获的。

超分辨率的想法至少要早于智能电话出现十年。几乎在很长一段时间内，它还通过电影和电视在公众的想象中生活。它已经成为学术期刊和会议上成千上万篇论文的主题。现在，这是真实的-在您的掌中，在Pixel 3中。