Jaaz:Lovart AI 本地开源替代 利用AI模型+图像模型 实现智能图像设计生成

Jaaz 一个 Lovart.AI 的本地免费替代品。它允许用户设计、编辑和生成图像、海报、故事板等内容,并提供一个创意画布板,以便快速进行迭代和布局发布。 Jaaz 通过 AI模型+图像模型 实现智能设计生成,能够根据用户的指令自动生成创意内容,如图像、海报、故事板等。它可以批量生成多种设计元

2025-06-22 08:00 · opensource · goodinfo.net

OpenAI 开源了一个基于其 Agents SDK 的演示项目 模拟利用AI接管航空公司客服系统

OpenAI 最近又开源了一个基于其 Agents SDK 的演示项目 —— 一个模拟航空公司客服系统的 AI 应用。 用来示范如何使用其 Agents SDK快速搭建多智能体协作的AI系统。 📌 核心亮点 - 项目目标:用多个“专业分工”的 AI 智能体合作,处理用户的各种航空服务

2025-06-19 08:00 · opensource · goodinfo.net

MagicTryOn:一种视频虚拟试衣 可以轻松实现给视频里面的人物进行换衣操作

MagicTryOn 是由浙江大学与 vivo AI 团队联合提出的一种视频虚拟试衣(Video Virtual Try-On, VVT)技术,旨在实现: > “将一件目标服装自然穿到任意视频中的人物身上,并保持连续、真实、服装细节清晰。” 与以往图像试衣不同,MagicTryOn 处理

2025-06-17 08:00 · opensource · goodinfo.net

Sketch2Vid: 通过Veo 3 将“手绘草图”转换成有声音的“动态视频”

Sketch2Vid 是一个用 AI 将“手绘草图”转换成“动态视频”的工具项目。 它的核心是使用了 Google Veo 3 模型 —— 一种能够将文字、图像等多模态输入转化为高清视频的最新 AI 视频生成模型(目前仍处于内测阶段)。 就是:你画一张草图,上传它,系统就会帮你“想象”并生成

2025-06-15 08:00 · opensource · goodinfo.net

腾讯发布首个完全开源的AI 3D建模工具:混元3D 2.1 模型 支持真实材质渲染

腾讯在国际顶级计算机视觉会议 CVPR 2025 上宣布,对外开源其混元3D 2.1大模型。可以自动创建高质量的三维模型,包括几何结构和材质纹理。 混元3D 2.1适配于消费级显卡,不再需要昂贵的专业设备,个人电脑也能跑! 混元3D 2.1大模型在效果全面升级的基础上,提供了模型权重、训练代

2025-06-14 08:00 · opensource · goodinfo.net

Agno:一个构建多智能体系统的全栈 AI 框架 可以轻松创建各种AI Agent

Agno 是一个为构建多智能体系统(Multi-Agent Systems)设计的全栈 AI 框架。 它集成了 推理(Reasoning)、记忆(Memory)、知识管理(Knowledge)、工具调用(Tooling) 和 Agent 团队协作(Agent Teams)。 > 你可以把它

2025-06-03 08:00 · opensource · goodinfo.net

Google 开源了一个Deep Research 系统模板 让你可以基于Gemini 2.5轻松构建一个Deep Research

Google 开源了一个Deep Research 系统模板,详细演示了如何基于 Google Gemini 2.5 模型 和 LangGraph 框架 构建一个具备「搜索 + 推理 + 引用」能力的AI 研究助理的智能体系统,适合做“深度问答与研究型信息检索”。 你可以把这个项目理解为一个**

2025-06-03 08:00 · opensource · goodinfo.net

Play AI 开源新一代语音编辑模型:PlayDiffusion 基于扩散模型 可进行语音局部编辑

传统语音合成(如 Text-to-Speech, TTS)通常使用 自回归模型(Autoregressive Model),意味着每一个语音片段是按顺序逐步生成的,这种方式虽然自然,但有几个严重限制: 1. 不能局部编辑:如果只想改一句话中的一个词,必须重生成整句。 2. 不连贯问题:如果

2025-06-03 08:00 · opensource · goodinfo.net

Chatterbox:一个开源的TTS模型 支持情绪夸张控制 零样本语音合成 <200ms 延迟

Chatterbox 是由 Resemble AI 发布的一个 开源、生产级别的文本转语音(Text-to-Speech, TTS)系统,主打: - 高质量语音合成(state-of-the-art) - 零样本合成能力(zero-shot TTS) - 情绪夸张控制(exagge

2025-05-29 08:00 · opensource · goodinfo.net

波士顿动力公司分享了其 Atlas 机器人的感知系统和视觉能力构建方法

🧭 为什么人类容易的事对机器人却那么难? 这是一个著名的现象,叫做Moravec悖论: > 简单来说:人类花了几百万年进化出的本能技能,比如走路、拿东西、看东西,反而是机器人最难学会的;而对我们来说很难的事情,比如复杂计算、处理大量数据,却是机器人擅长的。 这个矛盾产生的核心原因是

2025-05-29 08:00 · opensource · goodinfo.net