腾讯发布首个完全开源的AI 3D建模工具:混元3D 2.1 模型 支持真实材质渲染
腾讯在国际顶级计算机视觉会议 CVPR 2025 上宣布,对外开源其混元3D 2.1大模型。可以自动创建高质量的三维模型,包括几何结构和材质纹理。 混元3D 2.1适配于消费级显卡,不再需要昂贵的专业设备,个人电脑也能跑! 混元3D 2.1大模型在效果全面升级的基础上,提供了模型权重、训练代
腾讯在国际顶级计算机视觉会议 CVPR 2025 上宣布,对外开源其混元3D 2.1大模型。可以自动创建高质量的三维模型,包括几何结构和材质纹理。 混元3D 2.1适配于消费级显卡,不再需要昂贵的专业设备,个人电脑也能跑! 混元3D 2.1大模型在效果全面升级的基础上,提供了模型权重、训练代
Agno 是一个为构建多智能体系统(Multi-Agent Systems)设计的全栈 AI 框架。 它集成了 推理(Reasoning)、记忆(Memory)、知识管理(Knowledge)、工具调用(Tooling) 和 Agent 团队协作(Agent Teams)。 > 你可以把它
Google 开源了一个Deep Research 系统模板,详细演示了如何基于 Google Gemini 2.5 模型 和 LangGraph 框架 构建一个具备「搜索 + 推理 + 引用」能力的AI 研究助理的智能体系统,适合做“深度问答与研究型信息检索”。 你可以把这个项目理解为一个**
传统语音合成(如 Text-to-Speech, TTS)通常使用 自回归模型(Autoregressive Model),意味着每一个语音片段是按顺序逐步生成的,这种方式虽然自然,但有几个严重限制: 1. 不能局部编辑:如果只想改一句话中的一个词,必须重生成整句。 2. 不连贯问题:如果
Chatterbox 是由 Resemble AI 发布的一个 开源、生产级别的文本转语音(Text-to-Speech, TTS)系统,主打: - 高质量语音合成(state-of-the-art) - 零样本合成能力(zero-shot TTS) - 情绪夸张控制(exagge
🧭 为什么人类容易的事对机器人却那么难? 这是一个著名的现象,叫做Moravec悖论: > 简单来说:人类花了几百万年进化出的本能技能,比如走路、拿东西、看东西,反而是机器人最难学会的;而对我们来说很难的事情,比如复杂计算、处理大量数据,却是机器人擅长的。 这个矛盾产生的核心原因是
音频驱动的人类动画(Audio-driven Human Animation)近年来发展迅速,特别是在 语音驱动头像说话视频生成 和 全身动画生成 两大方向。 然而,现有方法面临以下核心挑战: 腾讯混元团队 提出了一种方法来解决以上问题:HunyuanVideo-Av
BAGEL(Batched Attention Generalist for Emergent Learning) 是由字节跳动开发的一个具备端到端图文理解与生成能力的开源多模态大模型,目标是打造: - 开源可控的 GPT-4o、Gemini 2.0 替代方案 - 支持图像 + 文本输入
Google发布了三款新的 Gemma 系列模型的变体:MedGemma、SignGemma 和 DolphinGemma,分别针对医学 AI、辅助技术以及跨物种通信三大创新领域。 它们体现了语言模型(LLMs)和多模态模型在专业垂直领域的深度应用潜力,也展示了开放、安全和可访问性在未来 AI 发
微软近日通过其研究团队正式发布了名为 Aurora 的 AI 基础模型,该模型具备在极短时间内以极低计算成本预测天气、空气质量、海洋波浪、热带气旋等多种环境现象的能力。 Aurora正重新定义我们理解和预测气候、海洋、大气及环境事件的方式。 它不只是一个天气模型,更是一个“地球系统模拟引擎”