全球全景日报 | goodinfo.net

Lightricks发布开源AI视频生成模型：LTX-Video 13B 比同类模型快30倍可在消费级GPU上运行

Lightricks发布开源AI视频生成模型：LTX-Video 13B。LTXV-13B采用创新的多尺度渲染方法，先以低分辨率生成视频的粗略运动和布局，再逐步细化细节。这种分层处理显著提升了生成速度（比同类模型快30倍），同时保持高质量输出，减少内存需求。核心特性： - 13

在构建基于大型语言模型（如 Gemini）的 AI 应用时，开发者通常面临以下难题： - 多模态输入（语音、图像、文本）流程复杂 - 需要组合多个异步 API 调用 - 数据处理逻辑零散、维护成本高 - 实时响应（如语音助手）性能难以保障 Google 发布了开源 Py

像GPT-4o、Gemini、Claude这些模型，不光能聊天，还能“看图说话”。但是研究人员发现：虽然它们能看图写文字，但并不清楚它们是否真的“理解”图像，比如： - 它能区分图像里不同的物体吗？ - 它能知道哪个东西远哪个东西近吗？ - 它能把一个图像“拆解”成不同的部分吗？

Bitchat 是一个完全脱离互联网、基于蓝牙 Mesh 网络的点对点加密通信应用，支持 iOS 与 macOS，专注隐私、安全与离线通信体验。你打开 App，就能自动连接附近人，不论有没有信号都能发消息。还支持加频道、私聊、屏蔽人等功能。 - 所有消息都经过端到端加密 - 不

Black Forest Labs 发布了 FLUX.1 Kontext [dev]，这是其图像编辑模型 FLUX.1 Kontext [pro] 的开源开发版本，拥有 12B参数，具备接近专有工具的图像编辑能力，并可在消费级硬件上运行。其目标是提供一个性能接近闭源专有模型的免费工具。 -

Google 正式推出的新一代开源轻量级多模态大模型：Gemma 3n，专为**端侧部署（on-device）**而优化。它支持图像、音频、视频和文本输入输出，致力于在移动设备上实现接近云端模型的能力。设计目标是： > 高性能、多模态、轻量部署、可自定义、全设备适配。它是

Jaaz 一个 Lovart.AI 的本地免费替代品。它允许用户设计、编辑和生成图像、海报、故事板等内容，并提供一个创意画布板，以便快速进行迭代和布局发布。 Jaaz 通过 AI模型+图像模型实现智能设计生成，能够根据用户的指令自动生成创意内容，如图像、海报、故事板等。它可以批量生成多种设计元

OpenAI 最近又开源了一个基于其 Agents SDK 的演示项目 —— 一个模拟航空公司客服系统的 AI 应用。用来示范如何使用其 Agents SDK快速搭建多智能体协作的AI系统。 📌 核心亮点 - 项目目标：用多个“专业分工”的 AI 智能体合作，处理用户的各种航空服务

MagicTryOn 是由浙江大学与 vivo AI 团队联合提出的一种视频虚拟试衣（Video Virtual Try-On, VVT）技术，旨在实现： > “将一件目标服装自然穿到任意视频中的人物身上，并保持连续、真实、服装细节清晰。” 与以往图像试衣不同，MagicTryOn 处理

Sketch2Vid 是一个用 AI 将“手绘草图”转换成“动态视频”的工具项目。它的核心是使用了 Google Veo 3 模型 —— 一种能够将文字、图像等多模态输入转化为高清视频的最新 AI 视频生成模型（目前仍处于内测阶段）。就是：你画一张草图，上传它，系统就会帮你“想象”并生成