Black Forest Labs 发布 FLUX.2 开源图像模型 最多支持10张多参考4MP高清分辨率 可投入生产阶段

📰 正文

Black Forest Labs（简称 BFL）推出其全新的 AI 图像生成模型：FLUX.2。定位为“前沿视觉智能系统（Frontier Visual Intelligence）”。

其核心目标是将图像生成模型从“展示级”工具，提升为“生产级”视觉基础设施。

为什么它被称为“前沿视觉智能 (Frontier Visual Intelligence)”？

因为它不仅仅是“画图”的AI，而是一个真正具备：

感知（perception）

理解（reasoning）

记忆（memory）

生成（generation）

能力的多模态系统雏形。

BFL 认为，FLUX.2 是朝着“让AI真正理解世界视觉”的方向迈出的关键一步。未来它将不只是生成图片，而是能“理解场景”、“记住上下文”、“参与设计流程”。

相较于传统的扩散式图像生成器（如 Stable Diffusion、Midjourney），FLUX.2 在结构一致性、文本解析、物理真实性和品牌级可控性方面均实现了显著进步。

主要特征包括：

多图像参考一致性（最多10张）

可读写复杂文字与排版

高分辨率（最高4MP）编辑能力

高度遵守提示（prompt adherence）

对光照、空间逻辑、品牌规范的精确控制|

总体能力概述

FLUX.2 的设计重点在于真实世界创意工作流（real-world creative workflows），非仅限概念展示。主要特性包括： 1.

风格与角色一致性：支持最多 10 张参考图像，在风格、角色、产品外观等维度保持极高的一致性。

高分辨率生成与编辑：支持最高 4 兆像素（4MP）的生成与编辑任务，细节保真度显著提高。

文字与图形渲染能力：在信息图、UI Mockup、排版、品牌标识等场景中具备稳定、清晰的文字输出。

复杂提示解析：能正确理解多阶段、结构化和组合性提示（compositional prompts）。

物理与语义一致性：改进了模型的光照推理、空间逻辑与现实知识，模型具备基本的光照推理与空间常识能力，使场景生成在现实逻辑上更加可信。

BFL 强调，该系列并非实验性原型，而是可直接用于工业级内容生产的体系化模型族。

FLUX.2 的四个版本

值得注意：FLUX.2 [dev] 的 FP8 优化版本已针对消费级 GPU（如 RTX 系列）进行优化，可在本地运行。合作方包括 NVIDIA、ComfyUI、FAL、Replicate、Runware、TogetherAI、DeepInfra 等平台。

技术架构

FLUX.2 基于 latent flow matching architecture，是一种结合扩散模型与流匹配（flow matching）的混合架构。相比传统扩散过程，流匹配在学习潜空间分布时更高效，并能提升生成一致性与编辑稳定性。

该架构实现了统一的生成与编辑框架（text-to-image 与 image-to-image 在同一模型中融合），从而在图像修改、风格延续和上下文连贯性上表现出显著优势。

性能如何

🧩 FLUX.2 [flex] 的 “steps” 参数

用户可调节生成步数（如 6、20、50）。

步数越少 → 生成更快但细节与文字精度下降。

步数越多 → 图像更精细、文字更清晰，但生成更慢。 → 实现速度与质量的灵活平衡。

⚙️ 性能与价值

FLUX.2 系列提供顶级图像质量，成本和速度都极具竞争力。

[dev] 版本在开源模型中设立新标准，在文本生成、单图编辑、多图融合等任务上全面领先。

GitHub：https://github.com/black-forest-labs/flux2

在线体验：https://playground.bfl.ai/

开发文档：http://docs.bfl.ai/flux_2/

提示词指南：https://docs.bfl.ai/guides/prompting_guide_flux2