Black Forest Labs 发布 FLUX.2 开源图像模型 最多支持10张多参考4MP高清分辨率 可投入生产阶段

Black Forest Labs(简称 BFL)推出其全新的 AI 图像生成模型:FLUX.2。定位为“前沿视觉智能系统(Frontier Visual Intelligence)”。 其核心目标是将图像生成模型从“展示级”工具,提升为“生产级”视觉基础设施。 为什么它被称为“前沿视觉智能

2025-11-26 08:00 · opensource · goodinfo.net

基于 Nano Banana Pro的一站式小红书图文生成器

一款基于 🍌Nano Banana Pro 与 Gemini 3 的一站式 AI 小红书图文生成器 slogan:“一句话一张图片,生成整套小红书内容” RedInk 的核心目标是让用户仅通过一句自然语言描述(如“秋季显白美甲”),即可自动生成一整套 风格统一、排版清晰、可直接发布的小

2025-11-26 08:00 · opensource · goodinfo.net

Meta AI 发布 SAM 3D 可以从任意图像中提取物体和人物的3D模型

Meta AI 发布 SAM 3D 个用于从单张图像中恢复真实世界三维结构的系统性框架。 此次发布包含两项核心模型: 1. SAM 3D Objects:从单张图片中重建物体的3D形状、纹理和布局 2. SAM 3D Body:从单张图片中恢复人体的完整三维姿态与体型 该模型能够从单

2025-11-20 08:00 · opensource · goodinfo.net

MiroThinker: 突破Scaling Law瓶颈 开创深度交互 Scaling让 AI 自我进化

MiroMind 团队推出了一款全新的开源智能体模型——MiroThinker v1.0。 它的最大创新是提出了一个新概念: “深度交互 Scaling(Interactive Scaling)” ——让 AI 不只是“大”,而是能“更聪明地行动和思考”。 这个概念突破了传统“模型规模越

2025-11-14 08:00 · opensource · goodinfo.net

Cambrian-S:空间超感知模型 不仅能“看懂”视频,还能精准地推理预测空间结构、物体布局与运动关系

Cambrian-S 是由 Meta、NYU、Google Brain 与斯坦福学者(包括 Yann LeCun、Li Fei-Fei、Saining Xie 等)联合推出的最新多模态模型, 目标是推动 视频理解进入“空间超感知(Spatial Supersensing)”时代。 这套模型不仅能

2025-11-11 08:00 · opensource · goodinfo.net

Meta AI发布 Omnilingual ASR:一个覆盖超过 1600 种语言 的开源语音识别框架

Meta AI(FAIR团队)发布了 Omnilingual ASR(全语种自动语音识别系统):一个覆盖超过 1600 种语言 的开源语音识别框架,其中包括 500 种此前从未被 AI 系统识别过的低资源语言。 这项计划的目标十分宏大: > 让任何语言都能被机器理解,让任何人都能用自己的语

2025-11-11 08:00 · opensource · goodinfo.net

一个精选的Claude Skills 最佳存储库 包含真实案例(

一个精选的 Claude Skills 列表,用于扩展 Claude 的功能,使其能执行特定任务并整合进真实工作流。” 精选合集,包含真实世界案例(不只是演示) 什么是 Claude Skills? Claude Skills 是一种「可编排的自定义工作流模块」,让 Clau

2025-11-11 08:00 · opensource · goodinfo.net

ChatTutor:可视化交互式AI教师系统

传统聊天式AI在教育中主要通过文本交互完成答疑,但这种方式的表现力有限,尤其在 STEM(科学、技术、工程、数学) 学科中,缺乏图形演示、公式推导与逻辑操作的支撑。 ChatTutor 的设计初衷正是弥补这一空白: > “为AI教师配备电子白板和交互工具,使其具备‘视觉教学’能力。”

2025-11-10 08:00 · opensource · goodinfo.net

StepFun AI 发布LLM 级别的音频编辑模型: Step-Audio-EditX 拥有 情绪、语气、风格、副语言特征编辑能力

StepFun AI (阶跃科技)发布 Step-Audio-EditX 语音开源模型,这是世界上第一个 LLM 级别的音频编辑模型。 它不仅能合成语音,还能编辑声音的情绪、语气、风格,让生成的语音更自然、更有表现力。 - 一个 基于大语言模型(LLM)架构 的音频模型; - 30亿参

2025-11-09 08:00 · opensource · goodinfo.net

Inworld TTS :能在0.25 秒内生成带情绪、语气、非语言细节的多语言语音模型 支持秒级声线克隆和实时对话流

Inworld TTS 是一款面向实时语音交互与数字角色开发的高端语音AI系统,集成: - Text-to-Speech(TTS)语音合成 - Voice Cloning(声音克隆) - 多语言与情感语音控制 - 实时流式生成(Streaming) - 非语言表达(no

2025-11-08 08:00 · opensource · goodinfo.net