Jaaz:Lovart AI 本地开源替代 利用AI模型+图像模型 实现智能图像设计生成
Jaaz 一个 Lovart.AI 的本地免费替代品。它允许用户设计、编辑和生成图像、海报、故事板等内容,并提供一个创意画布板,以便快速进行迭代和布局发布。 Jaaz 通过 AI模型+图像模型 实现智能设计生成,能够根据用户的指令自动生成创意内容,如图像、海报、故事板等。它可以批量生成多种设计元
Jaaz 一个 Lovart.AI 的本地免费替代品。它允许用户设计、编辑和生成图像、海报、故事板等内容,并提供一个创意画布板,以便快速进行迭代和布局发布。 Jaaz 通过 AI模型+图像模型 实现智能设计生成,能够根据用户的指令自动生成创意内容,如图像、海报、故事板等。它可以批量生成多种设计元
OpenAI 最近又开源了一个基于其 Agents SDK 的演示项目 —— 一个模拟航空公司客服系统的 AI 应用。 用来示范如何使用其 Agents SDK快速搭建多智能体协作的AI系统。 📌 核心亮点 - 项目目标:用多个“专业分工”的 AI 智能体合作,处理用户的各种航空服务
MagicTryOn 是由浙江大学与 vivo AI 团队联合提出的一种视频虚拟试衣(Video Virtual Try-On, VVT)技术,旨在实现: > “将一件目标服装自然穿到任意视频中的人物身上,并保持连续、真实、服装细节清晰。” 与以往图像试衣不同,MagicTryOn 处理
Sketch2Vid 是一个用 AI 将“手绘草图”转换成“动态视频”的工具项目。 它的核心是使用了 Google Veo 3 模型 —— 一种能够将文字、图像等多模态输入转化为高清视频的最新 AI 视频生成模型(目前仍处于内测阶段)。 就是:你画一张草图,上传它,系统就会帮你“想象”并生成
腾讯在国际顶级计算机视觉会议 CVPR 2025 上宣布,对外开源其混元3D 2.1大模型。可以自动创建高质量的三维模型,包括几何结构和材质纹理。 混元3D 2.1适配于消费级显卡,不再需要昂贵的专业设备,个人电脑也能跑! 混元3D 2.1大模型在效果全面升级的基础上,提供了模型权重、训练代
Agno 是一个为构建多智能体系统(Multi-Agent Systems)设计的全栈 AI 框架。 它集成了 推理(Reasoning)、记忆(Memory)、知识管理(Knowledge)、工具调用(Tooling) 和 Agent 团队协作(Agent Teams)。 > 你可以把它
Google 开源了一个Deep Research 系统模板,详细演示了如何基于 Google Gemini 2.5 模型 和 LangGraph 框架 构建一个具备「搜索 + 推理 + 引用」能力的AI 研究助理的智能体系统,适合做“深度问答与研究型信息检索”。 你可以把这个项目理解为一个**
传统语音合成(如 Text-to-Speech, TTS)通常使用 自回归模型(Autoregressive Model),意味着每一个语音片段是按顺序逐步生成的,这种方式虽然自然,但有几个严重限制: 1. 不能局部编辑:如果只想改一句话中的一个词,必须重生成整句。 2. 不连贯问题:如果
Chatterbox 是由 Resemble AI 发布的一个 开源、生产级别的文本转语音(Text-to-Speech, TTS)系统,主打: - 高质量语音合成(state-of-the-art) - 零样本合成能力(zero-shot TTS) - 情绪夸张控制(exagge
🧭 为什么人类容易的事对机器人却那么难? 这是一个著名的现象,叫做Moravec悖论: > 简单来说:人类花了几百万年进化出的本能技能,比如走路、拿东西、看东西,反而是机器人最难学会的;而对我们来说很难的事情,比如复杂计算、处理大量数据,却是机器人擅长的。 这个矛盾产生的核心原因是