全球全景日报 | goodinfo.net

微软开源 Magentic-UI：一个能自动执行复杂网页任务的智能代理系统但你可以控制走向

Magentic-UI 是 Microsoft 研究团队开发的一个面向人类协作的网页智能代理原型系统。它基于多智能体架构，结合大型语言模型（LLM），可自动执行复杂的网页任务。它可以： > 🧠 自动浏览网页、📁 读取文件、🧑‍💻 写代码，还能和你配合完成任务。但它不是全自动机器人

阿里巴巴通义实验室发布其最新的Wan2.1-VACE 开源 AI 视频模型，该模型专注于视频创作和编辑。开源版本： - 1.3B（适配消费级显卡，适合开发者试验） - 14B（更高性能，适用于高端任务）是 Wan2.1 模型系列的一部分，VACE 代表“Visual and

当 AI 第一次给出的回答不够好时，能不能让它自己再看看自己说的，自己改一改？一个名为 Self-Refine 的提示工程技巧，该方法能让一个大语言模型自我迭代输出内容，进而提高质量。 Self-Refine 的目标是： > 让大语言模型（LLMs）在无需人工标注数据或强化学习的前提

smolvlm-realtime-webcam是一个基于视觉语言模型（VLM）的开源演示项目，它让你可以通过电脑摄像头，实时捕捉画面并用小型 AI 模型进行实时图像理解和描述。项目完全本地运行，不依赖云服务。 - 低资源环境推理：在没有大型GPU或云服务的情况下运行多模态模型 -

HunyuanCustom 是腾讯混元团队开发的多模态定制视频生成系统，可通过文字、图片、音频或视频输入，生成具备特定人物、动作、语境和背景的视频内容。其突出优势是： - 强身份保持能力：人物在全片中形象不变 - 高度可控性：支持细粒度定制，如谁说话、在什么场景、做什么动作

Seed-Coder 是字节跳动 Seed 团队推出的一系列 8B参数规模的开源代码大语言模型，它展示了LLM可以通过最小的人工努力有效地自主整理代码训练数据,从而大幅提高编码能力。包含三个变体： - Seed-Coder-8B-Base：基础预训练模型 - Seed-Coder-

FastVLM（Fast Vision Language Model）是苹果公司开发的一种高效视觉语言模型（VLM）编码器系统。它专注于将高分辨率图像高效转换为 LLM 可处理的视觉 token，从而大幅提升图文理解的速度与效能。你可以把它理解为： > 📷 FastVLM：先把

字节跳动团队开源了一个深度研究框架，通过多智能体协作和工具集成，融合语言模型、搜索引擎、网页爬虫、代码执行器和多智能体协作机制，致力于将复杂研究流程自动化，并支持播客生成等多形式输出。 - 名称含义：DEER = Deep Exploration and Efficient Research

ACE-Step 是一个面向音乐生成的“基础模型”（foundation model）项目。由 ACE Studio 与 StepFun 联合开发。它的目标不是简单生成一首歌曲，而是提供一个通用、可扩展、可控的音乐生成系统架构，可广泛应用于创作、编曲、歌词生成、人声模拟、伴奏生成、说唱AI等领域

随着AIGC技术的发展，越来越多的人开始用AI进行图片、视频的编辑和生成。以扩散模型（如Stable Diffusion）为代表的AI工具，在单张图片编辑方面已经非常成熟，但在处理**多张相关图片（如视频帧、多个视角的照片）**时，往往会出现一个大问题——一致性不足。比如： - 多张照片风格差