有趣的视觉多向图:使用扩散模型生成视觉错觉图

密歇根大学
通信至: ude.hcimu@gnegd

tl;dr: 我们使用预训练的扩散模型
制造视错觉

概述

我们提出了一种简单的零光透 方法来产生多视角视错觉。 这些图像看起来像一件事,但在以下情况下会改变外观或身份 转化。我们在理论和实践 中表明 ,我们的方法支持广泛的转换 包括 旋转翻转颜色反转偏斜拼图重排,以及 随机排列。我们在下面展示一些例子。

拼图排列

翻转和 180° 旋转

90°旋转

颜色反转

其他排列

随机拼图排列

三种观察角度

方法

我们的方法在概念上很简单。我们采用现成的扩散模型并使用它 估计图像的不同视图或变换中的噪声。 \(v_i\) 然后,通过应用逆视图、 、 \(v_i^{-1}\) 并一起平均。然后,该平均噪声估计值用于执行扩散步骤。

视图条件

我们发现并非每个视图函数都适用于上述方法。当然, \(v_i\) 必须 是可逆的,但我们讨论了另外两个约束。

线性

对扩散模型进行训练,以估计噪声数据 \(\mathbf{x}_t\) 中的噪声 准时步 \(t\)长。嘈杂的数据 \(\mathbf{x}_t\) 应具有以下形式 \[\mathbf{x}_t = w_t^{\text{signal}}\underbrace{\mathbf{x}_0}_{\text{signal}} + w_t^{\text{noise}}\underbrace{\epsilon\vphantom{\mathbf{x}_0}}_{\text{noise}}.\] 也就是说, \(\mathbf{x}_t\) 是纯信号 \(\mathbf{x_0}\) 的加权平均值 和纯噪声 \(\epsilon\),特别是权重 \(w_t^{\text{signal}}\) 和 \(w_t^{\text{noise}}\)。 因此,我们认为, \(v\) 必须保持信号和噪声之间的这种权重。这是可以实现的 通过使 \(v\) 线性,我们用方阵 \(\mathbf{A}\)表示。按线性度 \[\begin{aligned} v(\mathbf{x}_t) &= \mathbf{A}(w_t^{\text{signal}} \mathbf{x}_0+w_t^{\text{noise}} \epsilon)\\[7pt] &= w_t^{\text{signal}} \underbrace{\mathbf{A}\mathbf{x}_0}_{\text{new signal}} + w_t^{\text{noise}} \underbrace{\mathbf{A}\epsilon}_{\text{new noise}}. \end{aligned}\] Effectively, \(v\) acts on the signal and the noise independently, and combines the result with the correct weighting.

统计一致性

扩散模型的训练假设是噪声是从标准法线中提取的。 因此,我们必须确保转换后的噪声也遵循这些统计数据。也就是说,我们需要 \[\mathbf{A}\epsilon \sim \mathcal{N}(0, I).\] 对于线性变换,这等效于正交条件 \(\mathbf{A}\) 。 直观地说,正交矩阵遵循标准多元高斯分布的球对称性。

因此,要使转换与我们的方法一起使用, 它必须是正交的就足够了。

正交变换

图像上的大多数正交变换在视觉上是没有意义的。例如,我们转换 下图是随机采样的正交矩阵。

但是, 置换矩阵是正交矩阵的一个子集, 并且具有相当可解释性。 它们只是图像中像素的重新排列。这就是 视觉字谜的想法 来自。这里的大多数错觉都可以这样解释,即像素的特定重新排列,例如 旋转翻转歪斜“内旋”、 拼图重排补丁排列。最后, 颜色反转 不是排列,而是正交的,因为它们是对像素值的否定。

相关链接

This project is inspired by previous work in this area, including:

Diffusion Illusions, by Ryan Burgert et al., which produces multi-view illusions, along with other visual effects, through score distillation sampling.

This colab notebook by Matthew Tancik, which introduces a similar idea to ours. We improve upon it significantly in terms of quality of illusions, range of transformations, and theoretical analysis.

Recent work by a pseudonymous artist, Ugleh, uses a Stable Diffusion model finetuned for generating QR codes to produce images whose global structure subtly matches a given template image.

BibTeX

@article{geng2023visualanagrams,
  title     = {Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models},
  author    = {Geng, Daniel and Park, Inbum and Owens, Andrew},
  journal   = {arXiv:2311.17919},
  year      = {2023},
  month     = {November},
  abbr      = {Preprint},
  url       = {https://arxiv.org/abs/2311.17919},
}