文生图（Text-to-Image）：从文字到画面的 AI 魔法

文生图技术正在悄然改变我们创造视觉内容的方式。输入一段描述，几秒后一张精美图像便呈现眼前——这背后是什么样的技术在驱动？

一、什么是文生图？

文生图（Text-to-Image Generation）是指模型接收自然语言描述作为输入，输出与之语义匹配的图像的任务。听起来简单，实则需要模型同时理解语言、掌握视觉美学、并将二者精准对齐。

让我们先看一下这个领域的发展脉络：

技术路线一：GAN（对抗生成网络）

早期文生图的主力军是 GAN。它由一对神经网络组成：生成器（Generator）负责 "造假"，判别器（Discriminator）负责 "打假"，二者博弈，共同进化。

StackGAN 把这个思路拆成两阶段：先生成低分辨率的大体轮廓，再细化成高清图像。AttnGAN 则引入了注意力机制，让文本的每个词都对应图像的某个局部区域。

但 GAN 有个天然缺陷——训练不稳定，而且生成的图像多样性差，容易出现 "模式坍塌"。

技术路线二：自回归 Transformer（DALL·E 1）

2021 年，OpenAI 的 DALL·E 1 改用了 Transformer 架构。思路类似 GPT：把图像 token 化（用 VQ-VAE 把图像压缩成离散 token 序列），然后和文本 token 拼接在一起，训练模型按顺序预测下一个 token。这样文生图就变成了一个 "序列续写" 问题。

技术路线三：扩散模型（当前主流）

2022 年后，扩散模型（Diffusion Model） 全面接管了文生图领域。DALL·E 2、Imagen、Stable Diffusion 都基于此原理。

核心思想来自物理学中的扩散过程：

正向过程（训练时）：取真实图像，逐步加入高斯噪声，直到变成一团随机噪声。这个过程是数学上确定的，无需学习。

反向过程（推理时）：从随机噪声出发，用神经网络逐步预测并去掉噪声，最终恢复出清晰图像。神经网络的输入是当前的噪声图像 + 时间步 t + 文本条件，这就是文字控制图像的关键所在。

二、CLIP：连接文字与图像的桥梁

扩散模型需要理解文字，这就要靠 CLIP（Contrastive Language-Image Pretraining）。CLIP 用 4 亿对图文数据训练出两个编码器：文本编码器和图像编码器，让语义相近的文本和图像在向量空间里靠拢。

文生图时，文本提示先通过 CLIP 的文本编码器变成向量，再通过交叉注意力（Cross-Attention） 机制注入去噪网络（通常是 U-Net 或 DiT），引导每一步去噪方向。

三、隐空间扩散：Stable Diffusion 的关键创新

原始扩散模型直接在像素空间操作，一张 512×512 的图像有 78 万维，计算极其昂贵。Stable Diffusion 的创新在于引入了潜在扩散模型（Latent Diffusion Model, LDM）：

先用 VAE（变分自编码器）把图像压缩到低维的潜在空间（比如 64×64），在这个小得多的空间里做扩散和去噪，最后再用 VAE 的解码器还原成高分辨率图像。计算量减少了近百倍，使得消费级 GPU 上的实时生成成为可能。

四、重要技术细节：CFG 引导强度

Classifier-Free Guidance（CFG） 是控制 "文本忠实度" 的关键超参数。它在每步去噪时同时运行有条件（带文本）和无条件（无文本）两次预测，然后放大二者差距：

最终预测 = 无条件预测 + cfg_scale × (有条件预测 − 无条件预测)

cfg_scale 越大，图像越贴近文字描述，但创意空间越小；越小则越 "自由发挥"，但可能偏离提示词。通常取值 7～12 之间。

五、近年前沿：从 U-Net 到 DiT

2023 年后，去噪网络的骨干开始从 U-Net 迁移到 DiT（Diffusion Transformer）。Sora、Flux、SD3 都采用了基于 Transformer 的架构，利用其强大的长程建模能力处理更复杂的语义对齐，图像质量和文本遵循度大幅提升。

同期，一致性模型（Consistency Model） 和 流匹配（Flow Matching） 也在尝试解决扩散模型 "推理步数多、速度慢" 的痼疾，把生成步数从 50 步压缩到 4 步以内。

六、当前挑战

尽管文生图已取得惊人进展，依然面临几个硬骨头：

文字渲染：模型生成含文字的图像时经常出现乱码，因为字符的精确形状需要极高的空间精度
手指与复杂结构：多指问题是 diffusion 模型的典型软肋
可控性：用户很难精确控制构图、物体位置等，ControlNet、IP-Adapter 等工具链在尝试弥补这一差距
版权与伦理：模型训练数据来源、风格迁移的版权归属仍是悬而未决的社会议题

七、小结

文生图的进化路径清晰：GAN → 自回归 → 扩散模型 → 潜在扩散 → Transformer 骨干 + 快速采样。每一代技术的飞跃都伴随着架构上的根本性创新。今天我们已经站在一个门槛上——生成质量接近专业摄影，速度趋近实时，而下一个突破或许就来自更高效的采样方法，或者真正理解物理世界的多模态大模型。

Serendipity

文生图（Text-to-Image）：从文字到画面的 AI 魔法

文生图（Text-to-Image）：从文字到画面的 AI 魔法

一、什么是文生图？

技术路线一：GAN（对抗生成网络）

技术路线二：自回归 Transformer（DALL·E 1）

技术路线三：扩散模型（当前主流）

二、CLIP：连接文字与图像的桥梁

三、隐空间扩散：Stable Diffusion 的关键创新

四、重要技术细节：CFG 引导强度

五、近年前沿：从 U-Net 到 DiT

六、当前挑战

七、小结

文生图（Text-to-Image）：从文字到画面的 AI 魔法

评论交流