全球全景日报 | goodinfo.net

ComfyUI-Copilot：赋予工作流能实现GPT 4o一样的自然语言图像生成和编辑能力

ComfyUI-Copilot 是一个由阿里巴巴团队开发的 AI 智能助手节点插件，专为 ComfyUI 工作流程优化而设计。它基于自然语言交互，提供智能节点推荐、模型查询、工作流构建辅助与实时问答支持，大幅提升 Stable Diffusion 和多模态生成类项目的开发效率，降低使用门槛

PiT（Piece-it-Together）是一种基于视觉零件的图像生成框架，可以从**几个输入图像的“部分”**自动生成出一个完整、连贯、符合语义和风格的新图像。通俗来说： > 假如你给它一张翅膀、一撮头发、一只眼睛，它就能“脑补”并生成一个完整的角色图像，像是一个设计师自动把灵感“拼

InfiniteYou（简称 InfU）是字节跳动推出的首个基于 DiT（ FLUX）的稳定身份保持图像生成系统。它可以根据一张人脸图像和一段文本描述，生成一张保留该人身份特征、同时满足文字描述的高质量图像。也就是，它是一个能“换装换背景但不换脸”的AI工具。你可以输入一张人脸照片和一

RF-DETR 是由 Roboflow 推出的实时目标检测模型，基于 Transformer 架构（属于 DETR 系列）。可以实时识别画面中的物体，准确率和速度优于YOLO系列模型。兼具： - ⚡ 实时推理性能（25+ FPS） - 📈 高精度（COCO 上首个 60+ mAP

MoshiVis 是首个支持实时语音对话且具备视觉理解能力的开源视觉语音模型（Vision Speech Model, VSM），由 Kyutai 团队基于其语音交互模型 Moshi 扩展而来。简而言之，它可以“看图说话”，并能与人进行自然的语音对话，同时保持低延迟，适用于真实时间的交互场景。

TEN-Agent 是一个开源的实时语音交互 AI 智能体平台，由 TEN Framework 构建，支持“看、听、说、实时对话”能力。它集成了多个强大组件（如 DeepSeek、OpenAI、Gemini、ESP32、RTC）并支持跨平台部署。该项目致力于构建可以在本地或边缘设备（如 ES

Fin-R1 是由上海财经大学统计与数据科学学院张立文教授团队（SUFE-AIFLM-Lab）联合财跃星辰共同研发并开源发布，专注于金融复杂推理任务。该模型基于 Qwen2.5-7B-Instruct 构建，利用 DeepSeek-R1 框架进行“数据蒸馏”与“双轮质量筛选”，通过高质

SpatialLM 是一个结合了大语言模型 (LLM) 与 3D 点云处理能力的 AI 系统，旨在实现对真实世界三维环境的语义理解与结构重建。它的核心目标是： > 让 AI 像人类一样“看懂”三维空间，并能够“用语言描述”、“结构化表达”，乃至“与人类互动”。 📦 本质上，它是：

StarVector 是一个专为 SVG 向量图形生成设计的基础模型，其目标是： > 用大模型（VLM）从图像或文本中理解语义结构，并自动生成标准可编辑的 SVG代码，适用于图标、技术图、LOGO、表情等。也就是将 SVG 矢量图的生成转化为“代码生成任务”，支持从图像或文本生成高质量

Canopy Labs 发布了 Orpheus Speech，这是一个高质量的 AI 语音合成（TTS）模型，旨在提供接近人类的情感化语音生成。它是首个开源且可生产使用的 TTS 语言模型（Speech-LLM），在情感表达、实时流式生成和零样本语音克隆方面超越现有模型。 Orpheus