Spark-TTS:基于Qwen2.5模型的高效文本转语音(TTS)系统 支持细粒度语音控制
Spark-TTS:一种基于大语言模型(Qwen2.5)的高效文本转语音(TTS)系统 ,针对当前 TTS 领域的效率问题,提出了一种新的 BiCodec 语音编码方法,使得语音合成更加自然,可控,并支持零样本语音克隆。 ✅ 采用 BiCodec 编码,简化架构,提升推理效率。 ✅ 支持细粒
Spark-TTS:一种基于大语言模型(Qwen2.5)的高效文本转语音(TTS)系统 ,针对当前 TTS 领域的效率问题,提出了一种新的 BiCodec 语音编码方法,使得语音合成更加自然,可控,并支持零样本语音克隆。 ✅ 采用 BiCodec 编码,简化架构,提升推理效率。 ✅ 支持细粒
NotaGen 是一个高质量古典乐谱(就是那种写在五线谱上的音乐)的符号音乐生成模型,专注于符号音乐(Symbolic Music)创作,特别是古典音乐生成。 其核心创新是结合大语言模型(LLMs)训练范式,采用 预训练(Pre-training)、微调(Fine-tuning)和强化学习(Rei
DiffRhythm 是 全球首个基于扩散模型(Diffusion Model)的端到端 AI 歌曲生成系统,能够在 10 秒内 生成一首完整的 4 分 45 秒歌曲,包含人声和伴奏。 它的核心创新在于 不依赖 MIDI 或传统音乐结构,只需要输入歌词和风格提示,即可生成高质量音乐作品。 📌
💡 背景:随着 OpenAI、Google 等公司发布 实时语音 AI 模型(如 ChatGPT 语音、Gemini 语音),以及 Moshi、Qwen2-Audio、Fixie.ai 等开源音频大模型的崛起,开发 流式音频 AI 应用 变得至关重要。然而,大多数机器学习工程师并不熟悉 WebRTC
PhotoDoodle 是 新加坡国立大学 Show Lab 与 Tiamat AI 合作开发的 AI 图像编辑工具,旨在通过 少样本数据(Few-Shot Learning)学习 进行艺术风格迁和图像编辑。 它可以通过 训练 AI,让 AI 学会某种艺术风格,并将其应用到新的图像上。 相比
olmOCR 是由 Allen Institute for AI (AI2) 开发的一款 开源 OCR(光学字符识别)工具,专门用于 高精度从 PDF 文本提取,能保持文本的 阅读顺序,并支持 表格、数学公式、手写内容 的解析。 主要优势包括: - 高性能:在 25 万页 多样化 PDF
FoleyCrafter 是一个能够为无声视频生成同步且逼真的声音效果的开源系统。用于自动生成与视频同步的高质量音效,从而实现身临其境的视听体验。它可以根据视频内容生成相关的声音,比如在视频里看到狗,FoleyCrafter 就会生成狗叫的声音。 它利用了一个预训练的文本到音频模型,并通过两个关
HealthGPT 是由浙江大学、国立大学新加坡等机构联合研发的医疗大视觉-语言模型(Med-LVLM)。 该模型旨在通过一个统一框架,集成医疗领域的视觉理解(comprehension)和视觉生成(generation)能力,提供从诊断问答到图像生成的多功能支持。它基于大语言模型(LLM)并通
阶跃星辰开源了一个130B 语音-文本多模态统一理解与生成模型:Step-Audio Step-Audio 结合了语音理解与生成能力,提供了一种多模态的解决方案,能够有效支持多种语音交互场景。 该模型旨在解决现有开源语音模型在语音数据收集、动态控制和智能化方面的局限性。 - 这是一个
UIGEN-T1是基于Qwen-7b 微调的专门用于 UI(用户界面)设计的模型。 主要功能是帮助开发者和设计师通过自动化生成 HTML 和 CSS 代码,从而简化 UI 设计和前端开发的过程。它专注于基础的网页布局生成,非常适合快速构建简单的静态页面,特别是在低代码或无代码平台中,能够极大地提