Live Avatar:实时、无限长的语音驱动虚拟人生成系统

Live Avatar 是由 阿里巴巴集团、 中国科学技术大学、北邮、浙江大学 联合开发的研究项目。 > “让AI虚拟人真正做到——实时思考、实时回应、永不中断地表达。” Live Avatar 的目标是构建一个可实时交互、可无限延展的“语音驱动虚拟人生成系统”(Audio-Driven

2025-12-08 08:00 · opensource · goodinfo.net

微软推出 VibeVoice-Realtime-0.5B 实时文本转语音模型 几乎实时转录 话还没说完即可开始

微软推出 VibeVoice-Realtime-0.5B 实时文本转语音模型属于 VibeVoice 系列的轻量化分支。 其核心目标是实现 低延迟、高自然度的流式语音生成,可在文本输入尚未完成时生成首段可听语音。 模型参数规模约 0.5B(5亿),以实时推理为核心优化目标,适用于研究级实时T

2025-12-05 08:00 · opensource · goodinfo.net

DeepSeek 开源了一个数学推理大模型:DeepSeek-Math-V2 超越Gemini 获得 IMO 金牌

DeepSeek-Math-V2 是一个能“自己检查自己是否算对”的数学推理大模型。 以往的数学大模型(比如 ChatGPT、Gemini、Claude)可以解题,但常常: - 过程不严谨; - 中间步骤错误; - 虽然“答案对”,但“推理错”。 DeepSee

2025-11-28 08:00 · opensource · goodinfo.net

Paper2Video:将任何学术论文自动”变成“演讲视频”

👉 Paper2Video 是一个让 AI 自动把“学术论文”变成“演讲视频”的系统。 它能自动生成类似会议上作者讲论文的视频展示: 你只需要提供: - 论文(LaTeX 格式) - 一张作者照片 - 一段语音样本 然后系统会自动: > 生成 PPT + 字幕 + 语音

2025-11-28 08:00 · opensource · goodinfo.net

阿里巴巴发布全新图像模型:Z-Image 1/3 的参数 达到了与国际商业模型几乎相同的视觉质量

阿里巴巴 通义实验)发布了一款名为Z-Image(造相)的高效图像生成基础模型。 - 模型参数:6B(60亿) - 显存占用:16GB以下即可运行 - 生成速度:8步采样即可出图 - 支持设备:消费级显卡即可流畅运行 它是通义家族中首个完全开源、支持中英文双语、性能接近

2025-11-27 08:00 · opensource · goodinfo.net

Black Forest Labs 发布 FLUX.2 开源图像模型 最多支持10张多参考4MP高清分辨率 可投入生产阶段

Black Forest Labs(简称 BFL)推出其全新的 AI 图像生成模型:FLUX.2。定位为“前沿视觉智能系统(Frontier Visual Intelligence)”。 其核心目标是将图像生成模型从“展示级”工具,提升为“生产级”视觉基础设施。 为什么它被称为“前沿视觉智能

2025-11-26 08:00 · opensource · goodinfo.net

基于 Nano Banana Pro的一站式小红书图文生成器

一款基于 🍌Nano Banana Pro 与 Gemini 3 的一站式 AI 小红书图文生成器 slogan:“一句话一张图片,生成整套小红书内容” RedInk 的核心目标是让用户仅通过一句自然语言描述(如“秋季显白美甲”),即可自动生成一整套 风格统一、排版清晰、可直接发布的小

2025-11-26 08:00 · opensource · goodinfo.net

Meta AI 发布 SAM 3D 可以从任意图像中提取物体和人物的3D模型

Meta AI 发布 SAM 3D 个用于从单张图像中恢复真实世界三维结构的系统性框架。 此次发布包含两项核心模型: 1. SAM 3D Objects:从单张图片中重建物体的3D形状、纹理和布局 2. SAM 3D Body:从单张图片中恢复人体的完整三维姿态与体型 该模型能够从单

2025-11-20 08:00 · opensource · goodinfo.net

MiroThinker: 突破Scaling Law瓶颈 开创深度交互 Scaling让 AI 自我进化

MiroMind 团队推出了一款全新的开源智能体模型——MiroThinker v1.0。 它的最大创新是提出了一个新概念: “深度交互 Scaling(Interactive Scaling)” ——让 AI 不只是“大”,而是能“更聪明地行动和思考”。 这个概念突破了传统“模型规模越

2025-11-14 08:00 · opensource · goodinfo.net

Cambrian-S:空间超感知模型 不仅能“看懂”视频,还能精准地推理预测空间结构、物体布局与运动关系

Cambrian-S 是由 Meta、NYU、Google Brain 与斯坦福学者(包括 Yann LeCun、Li Fei-Fei、Saining Xie 等)联合推出的最新多模态模型, 目标是推动 视频理解进入“空间超感知(Spatial Supersensing)”时代。 这套模型不仅能

2025-11-11 08:00 · opensource · goodinfo.net