IndexTTS2:突破性的零样本 TTS 语音模型(支持情感可控 + 时长可控)
👉 IndexTTS2 是由BiliBili一个新一代的语音合成模型,它能: - 精准控制语音时长(适合视频配音,嘴型同步)。 - 自由切换情绪(开心、生气、悲伤等),甚至能用文字告诉模型“我想让声音听起来愤怒”。 - 保持说话人音色不变,同时注入其他音频或文字里的情感。 -
👉 IndexTTS2 是由BiliBili一个新一代的语音合成模型,它能: - 精准控制语音时长(适合视频配音,嘴型同步)。 - 自由切换情绪(开心、生气、悲伤等),甚至能用文字告诉模型“我想让声音听起来愤怒”。 - 保持说话人音色不变,同时注入其他音频或文字里的情感。 -
Moonshot AI (月之暗面)发布最新的 Mixture-of-Experts(专家混合)模型:Kimi K2,总参数量达 1 万亿,激活参数 320 亿。 它在 知识问答、数学、编程 等领域表现达到开源和部分专有模型的最优水平。 与传统大模型不同,不仅是回答问题的“大模型”,更是具备
它是一个为中国开发者定制的 AI 编程工具包,让你用中文和 Claude AI 对话来写代码、优化架构、查资料。 为什么它特别? - 不需要翻墙,直接接入 Claude 的服务 - 所有交互都支持中文,更适合国内开发者 - 提供文档、咨询、音效、上下文管理等全套功能 ![i
Hunyuan-MT 是 腾讯混元团队推出的一套 开源机器翻译大模型,目前包括两个版本: - Hunyuan-MT-7B:一个 70 亿参数的多语言翻译模型 - Hunyuan-MT-Chimera-7B:一个“融合型”翻译模型,可以在推理时结合多个翻译候选,生成更优的结果 它专门
USO 是字节跳动提出的一个统一图像生成模型,全称为: > Unified Style-Subject Optimized 模型 它融合了风格驱动生成与主体驱动生成两个任务,并通过创新的训练机制将它们整合在一个统一框架中,解决了二者长期以来分离、互相影响的问题。 可以完成: -
Magenta RealTime(Magenta RT)是 Google Magenta 项目推出的开源权重实时音乐生成模型,可让用户在创作、演奏时实时互动生成音乐。 它是 Lyria RealTime(驱动 MusicFX DJ 模式与 Google AI Studio 实时音乐 API)的“开
MemU 是一个专为 AI 伴侣(AI companion)领域设计的 开源记忆框架,旨在帮助 AI 更像人类一样“记住你”,实现长期、上下文温馨且有逻辑的互动体验。 它专注于 AI 伴侣领域的长期记忆解决方案,通过结构化记忆、图谱构建、自我优化与动态遗忘机制,让 AI 能更自然地“记住你”。
OpenAI 发布的一个演示仓库,收录了一系列 完全由 GPT-5 在单个提示中自动生成的演示应用(demo),旨在展示 GPT-5 在生成代码方面的能力,尤其是快速构建网站、前端应用、小游戏和交互式界面的能力。 这些例子都无需人工编写代码,完全由自然语言提示驱动生成 > 💡“只要你输入一
LiYing 是一款专为普通照相馆设计的证件照后期自动化处理工具,可以一键自动处理证件照任务,比如: - 自动抠图换白底/红底/蓝底 - 裁剪成标准证件照大小 - 输出排版好的多张照片 - 快速压缩、转码照片 - 整个过程几乎不需要手动操作,尤其适合对技术不熟悉的影楼从
OpenAI发布了两个开源模型:gpt-oss-120b和gpt-oss-20b,这是自2019年GPT-2发布以来首次推出开源语言模型,标志着其在开源AI领域的重大进展。 这些模型专为处理复杂任务而设计,允许开发者根据需要进行调整与优化。提供高度的定制化功能,适用于各种用例,并且可以在本地电脑