Opensource

Orpheus-TTS：一个开源高质量语音TTS模型在音调、节奏、情绪等方面超越现有商业模型

Orpheus-TTS 是由 CanopyAI 发布的一个开源高质量语音合成系统，目标是： > 利用大型语言模型（LLM）驱动的语音生成，实现极为自然的人类语音表达，在音调、节奏、情绪等方面超越现有商业模型。它支持实时流式语音合成、零样本克隆、情感调控，可部署于本地或云端，适用于数字人

MagicColor 是一个基于扩散模型（Diffusion Model）的多实例线稿自动上色模型，由香港科技大学（HKUST）团队开发。支持用户通过上传线稿和多个参考图，就能一键自动生成风格统一、细节准确的彩色图像。它解决了传统手动上色流程中： - 耗时（逐个手动上色） -

Reducto 团队基于 Allen Institute for AI 发布的 olmOCR 模型，构建了一个性能更优、资源占用更低的替代模型：RolmOCR。它比之前的模型： - 更快 - 占用更少内存 - 识别效果更好该模型不依赖复杂的文档结构信息，能更灵活处理扫

随着在线视频平台（如YouTube）的普及，上传视频的时长逐年增加。 - 根据研究，截至2020年，25%的视频超过15分钟，5%的视频甚至超过3小时。 - 长视频（如新闻、体育、教育、Vlog等）通常包含多个主题，内容跨度大，用户难以快速定位感兴趣的部分。 - 用户查找特定内容变

MegaTTS3 是由字节跳动（Bytedance）研发的第三代高质量语音合成系统，是一款轻量、高效且开源的 TTS 工具，凭借 0.45B 参数模型实现了高质量中英文语音合成和克隆。主打： > “轻量化、高保真、强可控性、跨语种、零样本语音克隆”，支持中文+英文。它基于扩

ComfyUI-Copilot 是一个由阿里巴巴团队开发的 AI 智能助手节点插件，专为 ComfyUI 工作流程优化而设计。它基于自然语言交互，提供智能节点推荐、模型查询、工作流构建辅助与实时问答支持，大幅提升 Stable Diffusion 和多模态生成类项目的开发效率，降低使用门槛

PiT（Piece-it-Together）是一种基于视觉零件的图像生成框架，可以从**几个输入图像的“部分”**自动生成出一个完整、连贯、符合语义和风格的新图像。通俗来说： > 假如你给它一张翅膀、一撮头发、一只眼睛，它就能“脑补”并生成一个完整的角色图像，像是一个设计师自动把灵感“拼

InfiniteYou（简称 InfU）是字节跳动推出的首个基于 DiT（ FLUX）的稳定身份保持图像生成系统。它可以根据一张人脸图像和一段文本描述，生成一张保留该人身份特征、同时满足文字描述的高质量图像。也就是，它是一个能“换装换背景但不换脸”的AI工具。你可以输入一张人脸照片和一

RF-DETR 是由 Roboflow 推出的实时目标检测模型，基于 Transformer 架构（属于 DETR 系列）。可以实时识别画面中的物体，准确率和速度优于YOLO系列模型。兼具： - ⚡ 实时推理性能（25+ FPS） - 📈 高精度（COCO 上首个 60+ mAP

MoshiVis 是首个支持实时语音对话且具备视觉理解能力的开源视觉语音模型（Vision Speech Model, VSM），由 Kyutai 团队基于其语音交互模型 Moshi 扩展而来。简而言之，它可以“看图说话”，并能与人进行自然的语音对话，同时保持低延迟，适用于真实时间的交互场景。