Ming-UniAudio:能够理解、生成、以及编辑语音的语音模型 可自然语言指令直接对语音内容进行修改

Ming-UniAudio 是一款由蚂蚁集团旗下 Inclusion AI 团队 开发的 统一语音语言模型(Speech Large Language Model, Speech LLM)。 它的目标是实现一个能够 理解、生成、以及编辑语音的统一系统——这意味着模型不仅能“听懂”和“说话”,还可以“

2025-10-05 08:00 · opensource · goodinfo.net

DeepSeek 推出其最新实验性语言模型 DeepSeek-V3.2-Exp 大幅提升了推理效率并降低了计算成本

DeepSeek 推出其最新实验性语言模型 DeepSeek-V3.2-Exp,这是基于前代 V3.1-Terminus 构建的新版本。此次更新的最大亮点是引入了 DeepSeek Sparse Attention(DSA)机制,该技术可在长上下文处理中实现稀疏注意力分配,显著提升了推理效率并降低了

2025-09-29 08:00 · opensource · goodinfo.net

小米发布语音理解与生成模型:MiMo-Audio 具有少样本学习与涌现能力

小米研究团队发布MiMo-Audio ,一个统一的语音理解与生成大模型,支持从语音识别到语音生成、风格迁移、对话、唱歌的全能力,并具备强大的少样本学习与涌现能力。 - MiMo-Audio 集成了 Instruct TTS(指令驱动的语音合成) 功能,并加入了 Thinking Mode(思考

2025-09-22 08:00 · opensource · goodinfo.net

阿里巴巴发布Wan2.2-Animate 角色动画生成与替换模型 可精准复刻视频人物动作和角色替换

Wan2.2-Animate 是 Wan2.2 系列中专注于 角色动画生成与替换 的子模型。 现有 角色动画方法: - 多数只解决单一问题:要么控制动作,要么驱动表情,很少能同时处理 身体+表情+环境。 - 多基于 UNet+Diffusion,缺乏时序建模,视频不够流畅。 -

2025-09-20 08:00 · opensource · goodinfo.net

IndexTTS2:突破性的零样本 TTS 语音模型(支持情感可控 + 时长可控)

👉 IndexTTS2 是由BiliBili一个新一代的语音合成模型,它能: - 精准控制语音时长(适合视频配音,嘴型同步)。 - 自由切换情绪(开心、生气、悲伤等),甚至能用文字告诉模型“我想让声音听起来愤怒”。 - 保持说话人音色不变,同时注入其他音频或文字里的情感。 -

2025-09-11 08:00 · opensource · goodinfo.net

月之暗面发布最新开源模型:Kimi K2 具备具身行动式智能 能自主调用工具完成复杂任务。

Moonshot AI (月之暗面)发布最新的 Mixture-of-Experts(专家混合)模型:Kimi K2,总参数量达 1 万亿,激活参数 320 亿。 它在 知识问答、数学、编程 等领域表现达到开源和部分专有模型的最优水平。 与传统大模型不同,不仅是回答问题的“大模型”,更是具备

2025-09-05 08:00 · opensource · goodinfo.net

Claude Code 中文开发套件 让你可以用中文和 Claude AI 对话来写代码

它是一个为中国开发者定制的 AI 编程工具包,让你用中文和 Claude AI 对话来写代码、优化架构、查资料。 为什么它特别? - 不需要翻墙,直接接入 Claude 的服务 - 所有交互都支持中文,更适合国内开发者 - 提供文档、咨询、音效、上下文管理等全套功能 ![i

2025-09-03 08:00 · opensource · goodinfo.net

腾讯混元推出开源翻译大模型 在 WMT25 国际翻译大赛中 30/31 语言方向上都拿下了第一名

Hunyuan-MT 是 腾讯混元团队推出的一套 开源机器翻译大模型,目前包括两个版本: - Hunyuan-MT-7B:一个 70 亿参数的多语言翻译模型 - Hunyuan-MT-Chimera-7B:一个“融合型”翻译模型,可以在推理时结合多个翻译候选,生成更优的结果 它专门

2025-09-02 08:00 · opensource · goodinfo.net

USO :可以同时控制画面的风格和人物外观的图像生成模型 实现准确的风格迁移和强大的主体一致性

USO 是字节跳动提出的一个统一图像生成模型,全称为: > Unified Style-Subject Optimized 模型 它融合了风格驱动生成与主体驱动生成两个任务,并通过创新的训练机制将它们整合在一个统一框架中,解决了二者长期以来分离、互相影响的问题。 可以完成: -

2025-08-31 08:00 · opensource · goodinfo.net

Magenta RealTime:首个能够进行实时音乐生成的开源模型 可在创作、演奏时实时互动生成音乐

Magenta RealTime(Magenta RT)是 Google Magenta 项目推出的开源权重实时音乐生成模型,可让用户在创作、演奏时实时互动生成音乐。 它是 Lyria RealTime(驱动 MusicFX DJ 模式与 Google AI Studio 实时音乐 API)的“开

2025-08-09 08:00 · opensource · goodinfo.net