Opensource

Ming-UniAudio：能够理解、生成、以及编辑语音的语音模型可自然语言指令直接对语音内容进行修改

Ming-UniAudio 是一款由蚂蚁集团旗下 Inclusion AI 团队开发的统一语音语言模型（Speech Large Language Model, Speech LLM）。它的目标是实现一个能够理解、生成、以及编辑语音的统一系统——这意味着模型不仅能“听懂”和“说话”，还可以“

DeepSeek 推出其最新实验性语言模型 DeepSeek-V3.2-Exp 大幅提升了推理效率并降低了计算成本

DeepSeek 推出其最新实验性语言模型 DeepSeek-V3.2-Exp，这是基于前代 V3.1-Terminus 构建的新版本。此次更新的最大亮点是引入了 DeepSeek Sparse Attention（DSA）机制，该技术可在长上下文处理中实现稀疏注意力分配，显著提升了推理效率并降低了

小米发布语音理解与生成模型：MiMo-Audio 具有少样本学习与涌现能力

小米研究团队发布MiMo-Audio ，一个统一的语音理解与生成大模型，支持从语音识别到语音生成、风格迁移、对话、唱歌的全能力，并具备强大的少样本学习与涌现能力。 - MiMo-Audio 集成了 Instruct TTS（指令驱动的语音合成）功能，并加入了 Thinking Mode（思考

阿里巴巴发布Wan2.2-Animate 角色动画生成与替换模型可精准复刻视频人物动作和角色替换

Wan2.2-Animate 是 Wan2.2 系列中专注于角色动画生成与替换的子模型。现有角色动画方法： - 多数只解决单一问题：要么控制动作，要么驱动表情，很少能同时处理身体+表情+环境。 - 多基于 UNet+Diffusion，缺乏时序建模，视频不够流畅。 -

IndexTTS2：突破性的零样本 TTS 语音模型（支持情感可控 + 时长可控）

👉 IndexTTS2 是由BiliBili一个新一代的语音合成模型，它能： - 精准控制语音时长（适合视频配音，嘴型同步）。 - 自由切换情绪（开心、生气、悲伤等），甚至能用文字告诉模型“我想让声音听起来愤怒”。 - 保持说话人音色不变，同时注入其他音频或文字里的情感。 -

月之暗面发布最新开源模型：Kimi K2 具备具身行动式智能能自主调用工具完成复杂任务。

Moonshot AI （月之暗面）发布最新的 Mixture-of-Experts（专家混合）模型：Kimi K2，总参数量达 1 万亿，激活参数 320 亿。它在知识问答、数学、编程等领域表现达到开源和部分专有模型的最优水平。与传统大模型不同，不仅是回答问题的“大模型”，更是具备

Claude Code 中文开发套件让你可以用中文和 Claude AI 对话来写代码

它是一个为中国开发者定制的 AI 编程工具包，让你用中文和 Claude AI 对话来写代码、优化架构、查资料。为什么它特别？ - 不需要翻墙，直接接入 Claude 的服务 - 所有交互都支持中文，更适合国内开发者 - 提供文档、咨询、音效、上下文管理等全套功能 ![i

腾讯混元推出开源翻译大模型在 WMT25 国际翻译大赛中 30/31 语言方向上都拿下了第一名

Hunyuan-MT 是腾讯混元团队推出的一套开源机器翻译大模型，目前包括两个版本： - Hunyuan-MT-7B：一个 70 亿参数的多语言翻译模型 - Hunyuan-MT-Chimera-7B：一个“融合型”翻译模型，可以在推理时结合多个翻译候选，生成更优的结果它专门

USO ：可以同时控制画面的风格和人物外观的图像生成模型实现准确的风格迁移和强大的主体一致性

USO 是字节跳动提出的一个统一图像生成模型，全称为： > Unified Style-Subject Optimized 模型它融合了风格驱动生成与主体驱动生成两个任务，并通过创新的训练机制将它们整合在一个统一框架中，解决了二者长期以来分离、互相影响的问题。可以完成： -

Magenta RealTime：首个能够进行实时音乐生成的开源模型可在创作、演奏时实时互动生成音乐

Magenta RealTime（Magenta RT）是 Google Magenta 项目推出的开源权重实时音乐生成模型，可让用户在创作、演奏时实时互动生成音乐。它是 Lyria RealTime（驱动 MusicFX DJ 模式与 Google AI Studio 实时音乐 API）的“开