Orpheus-TTS:一个开源高质量语音TTS模型 在音调、节奏、情绪等方面超越现有商业模型

Orpheus-TTS 是由 CanopyAI 发布的一个开源高质量语音合成系统,目标是: > 利用大型语言模型(LLM)驱动的语音生成,实现极为自然的人类语音表达,在音调、节奏、情绪等方面超越现有商业模型。 它支持实时流式语音合成、零样本克隆、情感调控,可部署于本地或云端,适用于数字人

2025-04-11 08:00 · opensource · goodinfo.net

MagicColor:通过上传线稿图和多个参考图 一键自动为线稿图像进行上色

MagicColor 是一个基于 扩散模型(Diffusion Model) 的多实例线稿自动上色模型,由香港科技大学(HKUST)团队开发。 支持用户通过上传线稿和多个参考图,就能一键自动生成风格统一、细节准确的彩色图像。 它解决了传统手动上色流程中: - 耗时(逐个手动上色) -

2025-04-06 08:00 · opensource · goodinfo.net

RolmOCR:基于 olmOCR 构建的更快、更轻的开源OCR 模型 开箱即用

Reducto 团队基于 Allen Institute for AI 发布的 olmOCR 模型,构建了一个性能更优、资源占用更低的替代模型:RolmOCR。 它比之前的模型: - 更快 - 占用更少内存 - 识别效果更好 该模型不依赖复杂的文档结构信息,能更灵活处理扫

2025-04-06 08:00 · opensource · goodinfo.net

Chapter-Llama:将小时级别的长视频自动划分为语义清晰的章节 并生成简洁准确的标题

随着在线视频平台(如YouTube)的普及,上传视频的时长逐年增加。 - 根据研究,截至2020年,25%的视频超过15分钟,5%的视频甚至超过3小时。 - 长视频(如新闻、体育、教育、Vlog等)通常包含多个主题,内容跨度大,用户难以快速定位感兴趣的部分。 - 用户查找特定内容变

2025-04-03 08:00 · opensource · goodinfo.net

MegaTTS3:字节跳动发布第三代 高质量语音合成系统 0.45B 参数实现高质量中英文语音合成和克隆

MegaTTS3 是由字节跳动(Bytedance)研发的第三代 高质量语音合成系统,是一款轻量、高效且开源的 TTS 工具,凭借 0.45B 参数模型实现了高质量中英文语音合成和克隆。 主打: > “轻量化、高保真、强可控性、跨语种、零样本语音克隆”,支持 中文+英文。 它基于 扩

2025-03-31 08:00 · opensource · goodinfo.net

ComfyUI-Copilot:赋予工作流能实现GPT 4o一样的自然语言图像生成和编辑能力

ComfyUI-Copilot 是一个由 阿里巴巴团队开发的 AI 智能助手节点插件,专为 ComfyUI 工作流程优化而设计。 它基于自然语言交互,提供 智能节点推荐、模型查询、工作流构建辅助与实时问答支持,大幅提升 Stable Diffusion 和多模态生成类项目的开发效率,降低使用门槛

2025-03-29 08:00 · opensource · goodinfo.net

PiT:基于视觉零件的图像生成框架 随机输入几个图像 它能自动帮你脑补并生成一个完整的图像

PiT(Piece-it-Together)是一种基于视觉零件的图像生成框架,可以从**几个输入图像的“部分”**自动生成出一个完整、连贯、符合语义和风格的新图像。 通俗来说: > 假如你给它一张翅膀、一撮头发、一只眼睛,它就能“脑补”并生成一个完整的角色图像,像是一个设计师自动把灵感“拼

2025-03-24 08:00 · opensource · goodinfo.net

InfiniteYou:基于 FLUX 的“换装换背景但不换脸”的AI工具 可以将你的面部转移到任何场景和姿态中

InfiniteYou(简称 InfU) 是字节跳动推出的首个基于 DiT( FLUX)的稳定身份保持图像生成系统。它可以根据一张人脸图像和一段文本描述,生成一张 保留该人身份特征、同时 满足文字描述 的高质量图像。 也就是,它是一个能“换装换背景但不换脸”的AI工具。你可以输入一张人脸照片和一

2025-03-23 08:00 · opensource · goodinfo.net

RF-DETR:最先进的实时物体检测模型 实时识别视频画面中的物体

RF-DETR 是由 Roboflow 推出的 实时目标检测模型,基于 Transformer 架构(属于 DETR 系列)。可以实时识别画面中的物体,准确率和速度优于YOLO系列模型。 兼具: - ⚡ 实时推理性能(25+ FPS) - 📈 高精度(COCO 上首个 60+ mAP

2025-03-23 08:00 · opensource · goodinfo.net

MoshiVis:首个开源具备图像理解能力的实时语音模型 可以“看图说话”并以语音形式自然交流

MoshiVis 是首个支持实时语音对话且具备视觉理解能力的开源视觉语音模型(Vision Speech Model, VSM),由 Kyutai 团队基于其语音交互模型 Moshi 扩展而来。 简而言之,它可以“看图说话”,并能与人进行自然的语音对话,同时保持低延迟,适用于真实时间的交互场景。

2025-03-22 08:00 · opensource · goodinfo.net