ComfyUI-Copilot:赋予工作流能实现GPT 4o一样的自然语言图像生成和编辑能力

ComfyUI-Copilot 是一个由 阿里巴巴团队开发的 AI 智能助手节点插件,专为 ComfyUI 工作流程优化而设计。 它基于自然语言交互,提供 智能节点推荐、模型查询、工作流构建辅助与实时问答支持,大幅提升 Stable Diffusion 和多模态生成类项目的开发效率,降低使用门槛

2025-03-29 08:00 · opensource · goodinfo.net

PiT:基于视觉零件的图像生成框架 随机输入几个图像 它能自动帮你脑补并生成一个完整的图像

PiT(Piece-it-Together)是一种基于视觉零件的图像生成框架,可以从**几个输入图像的“部分”**自动生成出一个完整、连贯、符合语义和风格的新图像。 通俗来说: > 假如你给它一张翅膀、一撮头发、一只眼睛,它就能“脑补”并生成一个完整的角色图像,像是一个设计师自动把灵感“拼

2025-03-24 08:00 · opensource · goodinfo.net

InfiniteYou:基于 FLUX 的“换装换背景但不换脸”的AI工具 可以将你的面部转移到任何场景和姿态中

InfiniteYou(简称 InfU) 是字节跳动推出的首个基于 DiT( FLUX)的稳定身份保持图像生成系统。它可以根据一张人脸图像和一段文本描述,生成一张 保留该人身份特征、同时 满足文字描述 的高质量图像。 也就是,它是一个能“换装换背景但不换脸”的AI工具。你可以输入一张人脸照片和一

2025-03-23 08:00 · opensource · goodinfo.net

RF-DETR:最先进的实时物体检测模型 实时识别视频画面中的物体

RF-DETR 是由 Roboflow 推出的 实时目标检测模型,基于 Transformer 架构(属于 DETR 系列)。可以实时识别画面中的物体,准确率和速度优于YOLO系列模型。 兼具: - ⚡ 实时推理性能(25+ FPS) - 📈 高精度(COCO 上首个 60+ mAP

2025-03-23 08:00 · opensource · goodinfo.net

MoshiVis:首个开源具备图像理解能力的实时语音模型 可以“看图说话”并以语音形式自然交流

MoshiVis 是首个支持实时语音对话且具备视觉理解能力的开源视觉语音模型(Vision Speech Model, VSM),由 Kyutai 团队基于其语音交互模型 Moshi 扩展而来。 简而言之,它可以“看图说话”,并能与人进行自然的语音对话,同时保持低延迟,适用于真实时间的交互场景。

2025-03-22 08:00 · opensource · goodinfo.net

TEN-Agent:一个开源的 实时语音交互 AI 智能体平台 可以构建智能音箱、虚拟助手、实时翻译等应用

TEN-Agent 是一个开源的 实时语音交互 AI 智能体平台,由 TEN Framework 构建,支持“看、听、说、实时对话”能力。它集成了多个强大组件(如 DeepSeek、OpenAI、Gemini、ESP32、RTC)并支持跨平台部署。 该项目致力于构建可以在本地或边缘设备(如 ES

2025-03-22 08:00 · opensource · goodinfo.net

Fin-R1:基于Qwen2.5-7B 并通过强化学习训练金融推理模型 在多项金融基准测试中SOTA 水平

Fin-R1 是由 上海财经大学统计与数据科学学院张立文教授团队(SUFE-AIFLM-Lab) 联合 财跃星辰 共同研发并开源发布,专注于金融复杂推理任务。 该模型基于 Qwen2.5-7B-Instruct 构建,利用 DeepSeek-R1 框架进行“数据蒸馏”与“双轮质量筛选”,通过高质

2025-03-21 08:00 · opensource · goodinfo.net

SpatialLM:让 AI 像人类一样“看懂”三维空间,并能够“用语言描述”、乃至“与人类互动”

SpatialLM 是一个结合了 大语言模型 (LLM) 与 3D 点云处理能力 的 AI 系统,旨在实现对真实世界三维环境的语义理解与结构重建。 它的核心目标是: > 让 AI 像人类一样“看懂”三维空间,并能够“用语言描述”、“结构化表达”,乃至“与人类互动”。 📦 本质上,它是:

2025-03-21 08:00 · opensource · goodinfo.net

StarVector:SVG 向量图形生成模型 可以输入任意图像或者通过描述生成生成高质量 SVG 文件

StarVector 是一个专为 SVG 向量图形生成 设计的基础模型,其目标是: > 用大模型(VLM)从图像或文本中理解语义结构,并自动生成标准可编辑的 SVG代码,适用于图标、技术图、LOGO、表情等。 也就是将 SVG 矢量图的生成转化为“代码生成任务”,支持从图像或文本生成高质量

2025-03-21 08:00 · opensource · goodinfo.net

Orpheus Speech:基于 Llama-3B的开源AI 语音模型 质量超越ElevenLabs、PlayHT

Canopy Labs 发布了 Orpheus Speech,这是一个高质量的 AI 语音合成(TTS)模型,旨在提供接近人类的情感化语音生成。 它是首个开源且可生产使用的 TTS 语言模型(Speech-LLM),在情感表达、实时流式生成和零样本语音克隆方面超越现有模型。 Orpheus

2025-03-20 08:00 · opensource · goodinfo.net