全球全景日报 | goodinfo.net

Jaaz：Lovart AI 本地开源替代利用AI模型+图像模型实现智能图像设计生成

Jaaz 一个 Lovart.AI 的本地免费替代品。它允许用户设计、编辑和生成图像、海报、故事板等内容，并提供一个创意画布板，以便快速进行迭代和布局发布。 Jaaz 通过 AI模型+图像模型实现智能设计生成，能够根据用户的指令自动生成创意内容，如图像、海报、故事板等。它可以批量生成多种设计元

OpenAI 最近又开源了一个基于其 Agents SDK 的演示项目 —— 一个模拟航空公司客服系统的 AI 应用。用来示范如何使用其 Agents SDK快速搭建多智能体协作的AI系统。 📌 核心亮点 - 项目目标：用多个“专业分工”的 AI 智能体合作，处理用户的各种航空服务

MagicTryOn 是由浙江大学与 vivo AI 团队联合提出的一种视频虚拟试衣（Video Virtual Try-On, VVT）技术，旨在实现： > “将一件目标服装自然穿到任意视频中的人物身上，并保持连续、真实、服装细节清晰。” 与以往图像试衣不同，MagicTryOn 处理

Sketch2Vid 是一个用 AI 将“手绘草图”转换成“动态视频”的工具项目。它的核心是使用了 Google Veo 3 模型 —— 一种能够将文字、图像等多模态输入转化为高清视频的最新 AI 视频生成模型（目前仍处于内测阶段）。就是：你画一张草图，上传它，系统就会帮你“想象”并生成

腾讯在国际顶级计算机视觉会议 CVPR 2025 上宣布，对外开源其混元3D 2.1大模型。可以自动创建高质量的三维模型，包括几何结构和材质纹理。混元3D 2.1适配于消费级显卡，不再需要昂贵的专业设备，个人电脑也能跑！混元3D 2.1大模型在效果全面升级的基础上，提供了模型权重、训练代

Agno 是一个为构建多智能体系统（Multi-Agent Systems）设计的全栈 AI 框架。它集成了推理（Reasoning）、记忆（Memory）、知识管理（Knowledge）、工具调用（Tooling）和 Agent 团队协作（Agent Teams）。 > 你可以把它

Google 开源了一个Deep Research 系统模板，详细演示了如何基于 Google Gemini 2.5 模型和 LangGraph 框架构建一个具备「搜索 + 推理 + 引用」能力的AI 研究助理的智能体系统，适合做“深度问答与研究型信息检索”。你可以把这个项目理解为一个**

传统语音合成（如 Text-to-Speech, TTS）通常使用自回归模型（Autoregressive Model），意味着每一个语音片段是按顺序逐步生成的，这种方式虽然自然，但有几个严重限制： 1. 不能局部编辑：如果只想改一句话中的一个词，必须重生成整句。 2. 不连贯问题：如果

Chatterbox 是由 Resemble AI 发布的一个开源、生产级别的文本转语音（Text-to-Speech, TTS）系统，主打： - 高质量语音合成（state-of-the-art） - 零样本合成能力（zero-shot TTS） - 情绪夸张控制（exagge

🧭 为什么人类容易的事对机器人却那么难？这是一个著名的现象，叫做Moravec悖论： > 简单来说：人类花了几百万年进化出的本能技能，比如走路、拿东西、看东西，反而是机器人最难学会的；而对我们来说很难的事情，比如复杂计算、处理大量数据，却是机器人擅长的。这个矛盾产生的核心原因是