📰 正文
Black Forest Labs(简称 BFL)推出其全新的 AI 图像生成模型:FLUX.2。定位为“前沿视觉智能系统(Frontier Visual Intelligence)”。
其核心目标是将图像生成模型从“展示级”工具,提升为“生产级”视觉基础设施。
为什么它被称为“前沿视觉智能 (Frontier Visual Intelligence)”?
因为它不仅仅是“画图”的AI,而是一个真正具备:
感知(perception)
理解(reasoning)
记忆(memory)
生成(generation)
能力的多模态系统雏形。
BFL 认为,FLUX.2 是朝着“让AI真正理解世界视觉”的方向迈出的关键一步。 未来它将不只是生成图片,而是能“理解场景”、“记住上下文”、“参与设计流程”。
相较于传统的扩散式图像生成器(如 Stable Diffusion、Midjourney),FLUX.2 在结构一致性、文本解析、物理真实性和品牌级可控性方面均实现了显著进步。
主要特征包括:
多图像参考一致性(最多10张)
可读写复杂文字与排版
高分辨率(最高4MP)编辑能力
高度遵守提示(prompt adherence)
对光照、空间逻辑、品牌规范的精确控制|
总体能力概述
FLUX.2 的设计重点在于 真实世界创意工作流(real-world creative workflows),非仅限概念展示。 主要特性包括: 1.
风格与角色一致性:支持最多 10 张参考图像,在风格、角色、产品外观等维度保持极高的一致性。
高分辨率生成与编辑:支持最高 4 兆像素(4MP) 的生成与编辑任务,细节保真度显著提高。
文字与图形渲染能力:在信息图、UI Mockup、排版、品牌标识等场景中具备稳定、清晰的文字输出。
复杂提示解析:能正确理解多阶段、结构化和组合性提示(compositional prompts)。
物理与语义一致性:改进了模型的光照推理、空间逻辑与现实知识,模型具备基本的光照推理与空间常识能力,使场景生成在现实逻辑上更加可信。
BFL 强调,该系列并非实验性原型,而是可直接用于工业级内容生产的体系化模型族。
FLUX.2 的四个版本
值得注意:FLUX.2 [dev] 的 FP8 优化版本已针对消费级 GPU(如 RTX 系列)进行优化,可在本地运行。 合作方包括 NVIDIA、ComfyUI、FAL、Replicate、Runware、TogetherAI、DeepInfra 等平台。
技术架构
- 核心结构:Latent Flow Matching
FLUX.2 基于 latent flow matching architecture,是一种结合扩散模型与流匹配(flow matching)的混合架构。 相比传统扩散过程,流匹配在学习潜空间分布时更高效,并能提升生成一致性与编辑稳定性。
- 模型组件
该架构实现了 统一的生成与编辑框架(text-to-image 与 image-to-image 在同一模型中融合),从而在图像修改、风格延续和上下文连贯性上表现出显著优势。
性能如何
🧩 FLUX.2 [flex] 的 “steps” 参数
用户可调节生成步数(如 6、20、50)。
步数越少 → 生成更快但细节与文字精度下降。
步数越多 → 图像更精细、文字更清晰,但生成更慢。 → 实现速度与质量的灵活平衡。
⚙️ 性能与价值
FLUX.2 系列提供 顶级图像质量,成本和速度都极具竞争力。
[dev] 版本在开源模型中设立新标准,在文本生成、单图编辑、多图融合等任务上全面领先。
GitHub:https://github.com/black-forest-labs/flux2
在线体验:https://playground.bfl.ai/
开发文档:http://docs.bfl.ai/flux_2/
提示词指南:https://docs.bfl.ai/guides/prompting_guide_flux2
来源:Black Forest Labs 发布 FLUX.2 开源图像模型 最多支持10张多参考4MP高清分辨率 可投入生产阶段