Live Avatar:实时、无限长的语音驱动虚拟人生成系统
Live Avatar 是由 阿里巴巴集团、 中国科学技术大学、北邮、浙江大学 联合开发的研究项目。 > “让AI虚拟人真正做到——实时思考、实时回应、永不中断地表达。” Live Avatar 的目标是构建一个可实时交互、可无限延展的“语音驱动虚拟人生成系统”(Audio-Driven
Live Avatar 是由 阿里巴巴集团、 中国科学技术大学、北邮、浙江大学 联合开发的研究项目。 > “让AI虚拟人真正做到——实时思考、实时回应、永不中断地表达。” Live Avatar 的目标是构建一个可实时交互、可无限延展的“语音驱动虚拟人生成系统”(Audio-Driven
微软推出 VibeVoice-Realtime-0.5B 实时文本转语音模型属于 VibeVoice 系列的轻量化分支。 其核心目标是实现 低延迟、高自然度的流式语音生成,可在文本输入尚未完成时生成首段可听语音。 模型参数规模约 0.5B(5亿),以实时推理为核心优化目标,适用于研究级实时T
DeepSeek-Math-V2 是一个能“自己检查自己是否算对”的数学推理大模型。 以往的数学大模型(比如 ChatGPT、Gemini、Claude)可以解题,但常常: - 过程不严谨; - 中间步骤错误; - 虽然“答案对”,但“推理错”。 DeepSee
👉 Paper2Video 是一个让 AI 自动把“学术论文”变成“演讲视频”的系统。 它能自动生成类似会议上作者讲论文的视频展示: 你只需要提供: - 论文(LaTeX 格式) - 一张作者照片 - 一段语音样本 然后系统会自动: > 生成 PPT + 字幕 + 语音
阿里巴巴 通义实验)发布了一款名为Z-Image(造相)的高效图像生成基础模型。 - 模型参数:6B(60亿) - 显存占用:16GB以下即可运行 - 生成速度:8步采样即可出图 - 支持设备:消费级显卡即可流畅运行 它是通义家族中首个完全开源、支持中英文双语、性能接近
Black Forest Labs(简称 BFL)推出其全新的 AI 图像生成模型:FLUX.2。定位为“前沿视觉智能系统(Frontier Visual Intelligence)”。 其核心目标是将图像生成模型从“展示级”工具,提升为“生产级”视觉基础设施。 为什么它被称为“前沿视觉智能
一款基于 🍌Nano Banana Pro 与 Gemini 3 的一站式 AI 小红书图文生成器 slogan:“一句话一张图片,生成整套小红书内容” RedInk 的核心目标是让用户仅通过一句自然语言描述(如“秋季显白美甲”),即可自动生成一整套 风格统一、排版清晰、可直接发布的小
Meta AI 发布 SAM 3D 个用于从单张图像中恢复真实世界三维结构的系统性框架。 此次发布包含两项核心模型: 1. SAM 3D Objects:从单张图片中重建物体的3D形状、纹理和布局 2. SAM 3D Body:从单张图片中恢复人体的完整三维姿态与体型 该模型能够从单
MiroMind 团队推出了一款全新的开源智能体模型——MiroThinker v1.0。 它的最大创新是提出了一个新概念: “深度交互 Scaling(Interactive Scaling)” ——让 AI 不只是“大”,而是能“更聪明地行动和思考”。 这个概念突破了传统“模型规模越
Cambrian-S 是由 Meta、NYU、Google Brain 与斯坦福学者(包括 Yann LeCun、Li Fei-Fei、Saining Xie 等)联合推出的最新多模态模型, 目标是推动 视频理解进入“空间超感知(Spatial Supersensing)”时代。 这套模型不仅能