Opensource

Black Forest Labs 发布 FLUX.2 开源图像模型最多支持10张多参考4MP高清分辨率可投入生产阶段

Black Forest Labs（简称 BFL）推出其全新的 AI 图像生成模型：FLUX.2。定位为“前沿视觉智能系统（Frontier Visual Intelligence）”。其核心目标是将图像生成模型从“展示级”工具，提升为“生产级”视觉基础设施。为什么它被称为“前沿视觉智能

一款基于 🍌Nano Banana Pro 与 Gemini 3 的一站式 AI 小红书图文生成器 slogan：“一句话一张图片，生成整套小红书内容” RedInk 的核心目标是让用户仅通过一句自然语言描述（如“秋季显白美甲”），即可自动生成一整套风格统一、排版清晰、可直接发布的小

Meta AI 发布 SAM 3D 个用于从单张图像中恢复真实世界三维结构的系统性框架。此次发布包含两项核心模型： 1. SAM 3D Objects：从单张图片中重建物体的3D形状、纹理和布局 2. SAM 3D Body：从单张图片中恢复人体的完整三维姿态与体型该模型能够从单

MiroMind 团队推出了一款全新的开源智能体模型——MiroThinker v1.0。它的最大创新是提出了一个新概念： “深度交互 Scaling（Interactive Scaling）” ——让 AI 不只是“大”，而是能“更聪明地行动和思考”。这个概念突破了传统“模型规模越

Cambrian-S 是由 Meta、NYU、Google Brain 与斯坦福学者（包括 Yann LeCun、Li Fei-Fei、Saining Xie 等）联合推出的最新多模态模型，目标是推动视频理解进入“空间超感知（Spatial Supersensing）”时代。这套模型不仅能

Meta AI（FAIR团队）发布了 Omnilingual ASR（全语种自动语音识别系统）：一个覆盖超过 1600 种语言的开源语音识别框架，其中包括 500 种此前从未被 AI 系统识别过的低资源语言。这项计划的目标十分宏大： > 让任何语言都能被机器理解，让任何人都能用自己的语

一个精选的 Claude Skills 列表，用于扩展 Claude 的功能，使其能执行特定任务并整合进真实工作流。” 精选合集，包含真实世界案例（不只是演示）什么是 Claude Skills？ Claude Skills 是一种「可编排的自定义工作流模块」，让 Clau

传统聊天式AI在教育中主要通过文本交互完成答疑，但这种方式的表现力有限，尤其在 STEM（科学、技术、工程、数学）学科中，缺乏图形演示、公式推导与逻辑操作的支撑。 ChatTutor 的设计初衷正是弥补这一空白： > “为AI教师配备电子白板和交互工具，使其具备‘视觉教学’能力。”

StepFun AI （阶跃科技）发布 Step-Audio-EditX 语音开源模型，这是世界上第一个 LLM 级别的音频编辑模型。它不仅能合成语音，还能编辑声音的情绪、语气、风格，让生成的语音更自然、更有表现力。 - 一个基于大语言模型（LLM）架构的音频模型； - 30亿参

Inworld TTS 是一款面向实时语音交互与数字角色开发的高端语音AI系统，集成： - Text-to-Speech（TTS）语音合成 - Voice Cloning（声音克隆） - 多语言与情感语音控制 - 实时流式生成（Streaming） - 非语言表达（no