有趣的视觉多向图：使用扩散模型生成视觉错觉图

概述

我们提出了一种简单的零光透 方法来产生多视角视错觉。这些图像看起来像一件事，但在以下情况下会改变外观或身份转化。我们在理论和实践中表明，我们的方法支持广泛的转换包括旋转、翻转、颜色反转、偏斜、拼图重排，以及随机排列。我们在下面展示一些例子。

拼图排列

翻转和 180° 旋转

90°旋转

颜色反转

其他排列

随机拼图排列

三种观察角度

方法

我们的方法在概念上很简单。我们采用现成的扩散模型并使用它估计图像的不同视图或变换中的噪声。 \(v_i\) 然后，通过应用逆视图、、 \(v_i^{-1}\) 并一起平均。然后，该平均噪声估计值用于执行扩散步骤。

视图条件

我们发现并非每个视图函数都适用于上述方法。当然， \(v_i\) 必须是可逆的，但我们讨论了另外两个约束。

线性

对扩散模型进行训练，以估计噪声数据 \(\mathbf{x}_t\) 中的噪声准时步 \(t\)长。嘈杂的数据 \(\mathbf{x}_t\) 应具有以下形式 \[\mathbf{x}_t = w_t^{\text{signal}}\underbrace{\mathbf{x}_0}_{\text{signal}} + w_t^{\text{noise}}\underbrace{\epsilon\vphantom{\mathbf{x}_0}}_{\text{noise}}.\] 也就是说， \(\mathbf{x}_t\) 是纯信号 \(\mathbf{x_0}\) 的加权平均值和纯噪声 \(\epsilon\)，特别是权重 \(w_t^{\text{signal}}\) 和 \(w_t^{\text{noise}}\)。因此，我们认为， \(v\) 必须保持信号和噪声之间的这种权重。这是可以实现的通过使 \(v\) 线性，我们用方阵 \(\mathbf{A}\)表示。按线性度 \[\begin{aligned} v(\mathbf{x}_t) &= \mathbf{A}(w_t^{\text{signal}} \mathbf{x}_0+w_t^{\text{noise}} \epsilon)\\[7pt] &= w_t^{\text{signal}} \underbrace{\mathbf{A}\mathbf{x}_0}_{\text{new signal}} + w_t^{\text{noise}} \underbrace{\mathbf{A}\epsilon}_{\text{new noise}}. \end{aligned}\] Effectively, \(v\) acts on the signal and the noise independently, and combines the result with the correct weighting.

统计一致性

扩散模型的训练假设是噪声是从标准法线中提取的。因此，我们必须确保转换后的噪声也遵循这些统计数据。也就是说，我们需要 \[\mathbf{A}\epsilon \sim \mathcal{N}(0, I).\] 对于线性变换，这等效于正交条件 \(\mathbf{A}\) 。直观地说，正交矩阵遵循标准多元高斯分布的球对称性。

因此，要使转换与我们的方法一起使用， 它必须是正交的就足够了。

正交变换

图像上的大多数正交变换在视觉上是没有意义的。例如，我们转换下图是随机采样的正交矩阵。

但是， 置换矩阵是正交矩阵的一个子集， 并且具有相当可解释性。它们只是图像中像素的重新排列。这就是 视觉字谜的想法来自。这里的大多数错觉都可以这样解释，即像素的特定重新排列，例如旋转、翻转、歪斜、 “内旋”、拼图重排和补丁排列。最后，颜色反转不是排列，而是正交的，因为它们是对像素值的否定。

BibTeX

@article{geng2023visualanagrams,
  title     = {Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models},
  author    = {Geng, Daniel and Park, Inbum and Owens, Andrew},
  journal   = {arXiv:2311.17919},
  year      = {2023},
  month     = {November},
  abbr      = {Preprint},
  url       = {https://arxiv.org/abs/2311.17919},
}

有趣的视觉多向图：使用扩散模型生成视觉错觉图

tl;dr：我们使用预训练的扩散模型
制造视错觉

概述

拼图排列

翻转和 180° 旋转

90°旋转

颜色反转

其他排列

随机拼图排列

三种观察角度

方法

视图条件

线性

统计一致性

正交变换

相关链接

BibTeX

有趣的视觉多向图：使用扩散模型生成视觉错觉图

tl;dr： 我们使用预训练的扩散模型制造视错觉

概述

拼图排列

翻转和 180° 旋转

90°旋转

颜色反转

其他排列

随机拼图排列

三种观察角度

方法

视图条件

线性

统计一致性

正交变换

相关链接

BibTeX

tl;dr：我们使用预训练的扩散模型
制造视错觉