Stable Diffusion扩散模型推导公式的基础知识

文章目录

- 1、独立事件的条件概率
- 2、贝叶斯公式、先验概率、后验概率、似然、证据
- 3、马尔可夫链
- 4、正态分布 / 高斯分布
- 5、重参数化技巧
- 6、期望
- 7、KL散度、高斯分布的KL散度
- 8、极大似然估计
- 9、ELBO :Evidence Lower Bound
- 10、一元二次方程

1、独立事件的条件概率

A 和 B 是两个独立事件：
$\Rightarrow$ $P (A ∣ B) = P (A)$ ， $P (B ∣ A) = P (B)$ ，
$\Rightarrow$ $P (A, B ∣ C) = P (A ∣ C) P (B ∣ C)$

2、贝叶斯公式、先验概率、后验概率、似然、证据

贝叶斯公式：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

先验概率(prior)：P(A)
后验概率(posterior)：P(A|B)
似然 (likelihood)：P(B|A)
证据(evidence)：P(B)

举例：

在这里插入图片描述

在这里插入图片描述
$P(x_{t-1}|x_t)=\frac{P(x_t|x_{t-1})P(x_{t-1})}{P(x_t)}$

3、马尔可夫链

马尔可夫链:下一状态的概率分布仅取决于当前状态，与过去的状态无关

在这里插入图片描述

$P(x_t|x_{t-1},x_{t-2}...x_1x_0)=P(x_t|x_{t-1})$

正向扩散过程： $q(x_0:x_T)=q(x_0)q(x_1|x_0)q(x_2|x_1)...q(x_{T-1}|x_{T-2})q(x_T|x_{T-1})$

逆向扩散过程： $p(x_0:x_T)=p(x_T)p(x_{T-1}|x_T)p(x_{T-2}|x_{T-1})...p(x_1|x_2)p(x_0|x_1)$

4、正态分布 / 高斯分布

$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

$x\sim \mathcal{N}(\mu,\sigma^2)$

高斯分布的性质：
A、如果 $X\sim \mathcal{N}(\mu,\sigma^2)$ ，那么 $aX+B\sim \mathcal{N}(a\mu+b,a^2\sigma^2)$
B、两个正态分布相加，其结果也是正态分布：
$X\sim \mathcal{N}(\mu_1,\sigma_1^2)$ ； $Y\sim \mathcal{N}(\mu_2,\sigma_2^2)$ ，则 $X+Y\sim\mathcal{N}(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)$

5、重参数化技巧

对于高斯分布: $X\sim \mathcal{N}(\mu,\sigma^2)$ ，采样这个操作本身是不可导的，也就无法通过BP来对参数进行优化。但是我们可以通过重参数化技巧，将简单分布的采样结果变换到特定分布中，如此一来则可以对参数进行求导,
具体操作：
A、引入服从标准正态分布的随机变量： $z\sim\mathcal{N}(0,1)$
B、令 $x=\mu+\sigma z$ ，这样就满足 $X\sim\mathcal{N}(\mu,\sigma^2)$

6、期望

期望是指随机变量取值的平均值，用来刻画随机变量的集中位置,

(1)离散型随机变量
离散型随机变量X的取值为 $x_1,x_2,x_3,.......,x_n$ ，对应的概率为 $p_1,p_2,p_3,......,p_n$ ，
则X的期望为： $E(X)=\sum_{i=1}^{n}x_ip_i$
------------------------------------------------------------------------------------------------

若离散变量 $Y$ 符合函数 $Y = g (X)$ ， $g (X)$ 是连续函数，且 $\sum_{i=1}^n g(x_i)p_i$ 绝对收敛，
则离散变量 $Y$ 的期望为： $E(X)=\sum_{i=1}^n g(x_i)p_i$

(2)连续型随机变量
连续型随机变量 $X$ 的概率密度函数为 $f (x)$ ，
则 $X$ 的期望为： $E(X)=\int_{-\infty}^\infty xf(x){\rm d}x$ ，
若随机变量 $Y$ 符合函数 $Y = g (x)$ ，且 $\int_{-\infty}^\infty g(x)f(x){\rm d}x$ 绝对收敛，
则随机变量 $Y$ 的期望为： $E(Y)=\int_{-\infty}^\infty g(x)f(x){\rm d}x$

注意: 对于连续型随机变量，期望就是积分，满足条件的积分也可以写成期望的形式。这在之后的公式推导过程中，我们会使用到期望与积分写法的转换，

7、KL散度、高斯分布的KL散度

KL散度的作用: 用于衡量2个概率分布(分布 $p$ 和分布 $q$ )之间的差异，
$D_{KL}(p||q)=H(p,q)-H(p)=\int_x p(x)log\frac{p(x)}{q(x)}dx=E_{x\sim p(x)}[log\frac{p(x)}{q(x)}]$

其中:
$H (p, q)$ 表示分布 $p$ 和分布 $q$ 的交叉熵， $H (p)$ 表示分布 $p$ 的熵，

KL散度的重要性质：

$D_{KL}(p||q)\ge0$
当分布 $p$ 与分布 $q$ 完全一样时， $D_{KL}(p||q)=0$
对于相同的分布 $p$ 和分布 $q$ ，这里所说的相同的分布是 $D_{KL}(p||q)$ 与 $D_{KL}(q||p)$ 中的2个 $p$ 和2个 $q$ 是一样的， $D_{KL}(p||q)$ 与 $D_{KL}(q||p)$ 计算所得到的值不一样，
对于 $D_{KL}(p||q)$ ，我们一般认为 $p (x)$ 是真实分布， $q (x)$ 是预测分布， $D_{KL}(p||q)$ 是
求预测分布 $q (x)$ 与真实分布 $p (x)$ 之间的差距，

高斯分布的KL散度:
$p(x)=\mathcal{N}(\mu_1,\sigma_1)=\frac{1}{\sqrt{2\pi}\sigma_1}e^-\frac{(x-\mu_1)^2}{2\sigma_1^2}$ ，
$q(x)=\mathcal{N}(\mu_2,\sigma_2)=\frac{1}{\sqrt{2\pi}\sigma_2}e^-\frac{(x-\mu_2)^2}{2\sigma_1^2}$ ，
${\rm KL}(\mathcal{N}({\rm x}|\mu_1,\sum_1)||\mathcal{N}({\rm x}|\mu_2,\sum_2))=\frac{1}{2}\big[ log\frac{\sum_2}{\sum_1}-K+tr(\sum_2^{-1}\sum_1)+(\mu_1-\mu_2)^T\sum_2^{-1}(\mu_1-\mu_2)\big]$ ，
$D_{KL}(p,q)=log\frac{\sigma_2}{\sigma_1}-\frac{1}{2}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}$ ，