文生图(Text-to-Image):从文字到画面的 AI 魔法

文生图技术正在悄然改变我们创造视觉内容的方式。输入一段描述,几秒后一张精美图像便呈现眼前——这背后是什么样的技术在驱动?

一、什么是文生图?

文生图(Text-to-Image Generation)是指模型接收自然语言描述作为输入,输出与之语义匹配的图像的任务。听起来简单,实则需要模型同时理解语言、掌握视觉美学、并将二者精准对齐。

让我们先看一下这个领域的发展脉络:

技术路线一:GAN(对抗生成网络)

早期文生图的主力军是 GAN。它由一对神经网络组成:生成器(Generator)负责 "造假",判别器(Discriminator)负责 "打假",二者博弈,共同进化。

StackGAN 把这个思路拆成两阶段:先生成低分辨率的大体轮廓,再细化成高清图像。AttnGAN 则引入了注意力机制,让文本的每个词都对应图像的某个局部区域。

但 GAN 有个天然缺陷——训练不稳定,而且生成的图像多样性差,容易出现 "模式坍塌"。

技术路线二:自回归 Transformer(DALL·E 1)

2021 年,OpenAI 的 DALL·E 1 改用了 Transformer 架构。思路类似 GPT:把图像 token 化(用 VQ-VAE 把图像压缩成离散 token 序列),然后和文本 token 拼接在一起,训练模型按顺序预测下一个 token。这样文生图就变成了一个 "序列续写" 问题。

技术路线三:扩散模型(当前主流)

2022 年后,扩散模型(Diffusion Model) 全面接管了文生图领域。DALL·E 2、Imagen、Stable Diffusion 都基于此原理。

核心思想来自物理学中的扩散过程:

正向过程(训练时):取真实图像,逐步加入高斯噪声,直到变成一团随机噪声。这个过程是数学上确定的,无需学习。

反向过程(推理时):从随机噪声出发,用神经网络逐步预测并去掉噪声,最终恢复出清晰图像。神经网络的输入是当前的噪声图像 + 时间步 t + 文本条件,这就是文字控制图像的关键所在。

二、CLIP:连接文字与图像的桥梁

扩散模型需要理解文字,这就要靠 CLIP(Contrastive Language-Image Pretraining)。CLIP 用 4 亿对图文数据训练出两个编码器:文本编码器和图像编码器,让语义相近的文本和图像在向量空间里靠拢。

文生图时,文本提示先通过 CLIP 的文本编码器变成向量,再通过交叉注意力(Cross-Attention) 机制注入去噪网络(通常是 U-Net 或 DiT),引导每一步去噪方向。

三、隐空间扩散:Stable Diffusion 的关键创新

原始扩散模型直接在像素空间操作,一张 512×512 的图像有 78 万维,计算极其昂贵。Stable Diffusion 的创新在于引入了潜在扩散模型(Latent Diffusion Model, LDM)

先用 VAE(变分自编码器)把图像压缩到低维的潜在空间(比如 64×64),在这个小得多的空间里做扩散和去噪,最后再用 VAE 的解码器还原成高分辨率图像。计算量减少了近百倍,使得消费级 GPU 上的实时生成成为可能。

四、重要技术细节:CFG 引导强度

Classifier-Free Guidance(CFG) 是控制 "文本忠实度" 的关键超参数。它在每步去噪时同时运行有条件(带文本)和无条件(无文本)两次预测,然后放大二者差距:

最终预测 = 无条件预测 + cfg_scale × (有条件预测 − 无条件预测)

cfg_scale 越大,图像越贴近文字描述,但创意空间越小;越小则越 "自由发挥",但可能偏离提示词。通常取值 7~12 之间。

五、近年前沿:从 U-Net 到 DiT

2023 年后,去噪网络的骨干开始从 U-Net 迁移到 DiT(Diffusion Transformer)。Sora、Flux、SD3 都采用了基于 Transformer 的架构,利用其强大的长程建模能力处理更复杂的语义对齐,图像质量和文本遵循度大幅提升。

同期,一致性模型(Consistency Model)流匹配(Flow Matching) 也在尝试解决扩散模型 "推理步数多、速度慢" 的痼疾,把生成步数从 50 步压缩到 4 步以内。

六、当前挑战

尽管文生图已取得惊人进展,依然面临几个硬骨头:

  • 文字渲染:模型生成含文字的图像时经常出现乱码,因为字符的精确形状需要极高的空间精度

  • 手指与复杂结构:多指问题是 diffusion 模型的典型软肋

  • 可控性:用户很难精确控制构图、物体位置等,ControlNet、IP-Adapter 等工具链在尝试弥补这一差距

  • 版权与伦理:模型训练数据来源、风格迁移的版权归属仍是悬而未决的社会议题

七、小结

文生图的进化路径清晰:GAN → 自回归 → 扩散模型 → 潜在扩散 → Transformer 骨干 + 快速采样。每一代技术的飞跃都伴随着架构上的根本性创新。今天我们已经站在一个门槛上——生成质量接近专业摄影,速度趋近实时,而下一个突破或许就来自更高效的采样方法,或者真正理解物理世界的多模态大模型。