Play AI 开源新一代语音编辑模型:PlayDiffusion 基于扩散模型 可进行语音局部编辑
传统语音合成(如 Text-to-Speech, TTS)通常使用 自回归模型(Autoregressive Model),意味着每一个语音片段是按顺序逐步生成的,这种方式虽然自然,但有几个严重限制: 1. 不能局部编辑:如果只想改一句话中的一个词,必须重生成整句。 2. 不连贯问题:如果
传统语音合成(如 Text-to-Speech, TTS)通常使用 自回归模型(Autoregressive Model),意味着每一个语音片段是按顺序逐步生成的,这种方式虽然自然,但有几个严重限制: 1. 不能局部编辑:如果只想改一句话中的一个词,必须重生成整句。 2. 不连贯问题:如果
Chatterbox 是由 Resemble AI 发布的一个 开源、生产级别的文本转语音(Text-to-Speech, TTS)系统,主打: - 高质量语音合成(state-of-the-art) - 零样本合成能力(zero-shot TTS) - 情绪夸张控制(exagge
🧭 为什么人类容易的事对机器人却那么难? 这是一个著名的现象,叫做Moravec悖论: > 简单来说:人类花了几百万年进化出的本能技能,比如走路、拿东西、看东西,反而是机器人最难学会的;而对我们来说很难的事情,比如复杂计算、处理大量数据,却是机器人擅长的。 这个矛盾产生的核心原因是
音频驱动的人类动画(Audio-driven Human Animation)近年来发展迅速,特别是在 语音驱动头像说话视频生成 和 全身动画生成 两大方向。 然而,现有方法面临以下核心挑战: 腾讯混元团队 提出了一种方法来解决以上问题:HunyuanVideo-Av
BAGEL(Batched Attention Generalist for Emergent Learning) 是由字节跳动开发的一个具备端到端图文理解与生成能力的开源多模态大模型,目标是打造: - 开源可控的 GPT-4o、Gemini 2.0 替代方案 - 支持图像 + 文本输入
Google发布了三款新的 Gemma 系列模型的变体:MedGemma、SignGemma 和 DolphinGemma,分别针对医学 AI、辅助技术以及跨物种通信三大创新领域。 它们体现了语言模型(LLMs)和多模态模型在专业垂直领域的深度应用潜力,也展示了开放、安全和可访问性在未来 AI 发
微软近日通过其研究团队正式发布了名为 Aurora 的 AI 基础模型,该模型具备在极短时间内以极低计算成本预测天气、空气质量、海洋波浪、热带气旋等多种环境现象的能力。 Aurora正重新定义我们理解和预测气候、海洋、大气及环境事件的方式。 它不只是一个天气模型,更是一个“地球系统模拟引擎”
Magentic-UI 是 Microsoft 研究团队开发的一个面向人类协作的网页智能代理原型系统。它基于多智能体架构,结合大型语言模型(LLM),可自动执行复杂的网页任务。 它可以: > 🧠 自动浏览网页、📁 读取文件、🧑💻 写代码,还能和你配合完成任务。 但它不是全自动机器人
阿里巴巴通义实验室发布其最新的Wan2.1-VACE 开源 AI 视频模型,该模型专注于视频创作和编辑。 开源版本: - 1.3B(适配消费级显卡,适合开发者试验) - 14B(更高性能,适用于高端任务) 是 Wan2.1 模型系列的一部分,VACE 代表“Visual and
当 AI 第一次给出的回答不够好时,能不能让它自己再看看自己说的,自己改一改? 一个名为 Self-Refine 的提示工程技巧,该方法能让一个大语言模型自我迭代输出内容,进而提高质量。 Self-Refine 的目标是: > 让大语言模型(LLMs)在无需人工标注数据或强化学习的前提