全球全景日报 | goodinfo.net

PhotoDoodle ：基于少样本学习的 AI 图像编辑工具仅 30-50 张示例图片可让AI学会任何艺术风格并进行图像编辑

PhotoDoodle 是新加坡国立大学 Show Lab 与 Tiamat AI 合作开发的 AI 图像编辑工具，旨在通过少样本数据（Few-Shot Learning）学习进行艺术风格迁和图像编辑。它可以通过训练 AI，让 AI 学会某种艺术风格，并将其应用到新的图像上。相比

olmOCR 是由 Allen Institute for AI (AI2) 开发的一款开源 OCR（光学字符识别）工具，专门用于高精度从 PDF 文本提取，能保持文本的阅读顺序，并支持表格、数学公式、手写内容的解析。主要优势包括： - 高性能：在 25 万页多样化 PDF

FoleyCrafter 是一个能够为无声视频生成同步且逼真的声音效果的开源系统。用于自动生成与视频同步的高质量音效，从而实现身临其境的视听体验。它可以根据视频内容生成相关的声音，比如在视频里看到狗，FoleyCrafter 就会生成狗叫的声音。它利用了一个预训练的文本到音频模型，并通过两个关

HealthGPT 是由浙江大学、国立大学新加坡等机构联合研发的医疗大视觉-语言模型（Med-LVLM）。该模型旨在通过一个统一框架，集成医疗领域的视觉理解（comprehension）和视觉生成（generation）能力，提供从诊断问答到图像生成的多功能支持。它基于大语言模型（LLM）并通

阶跃星辰开源了一个130B 语音-文本多模态统一理解与生成模型：Step-Audio Step-Audio 结合了语音理解与生成能力，提供了一种多模态的解决方案，能够有效支持多种语音交互场景。该模型旨在解决现有开源语音模型在语音数据收集、动态控制和智能化方面的局限性。 - 这是一个

UIGEN-T1是基于Qwen-7b 微调的专门用于 UI（用户界面）设计的模型。主要功能是帮助开发者和设计师通过自动化生成 HTML 和 CSS 代码，从而简化 UI 设计和前端开发的过程。它专注于基础的网页布局生成，非常适合快速构建简单的静态页面，特别是在低代码或无代码平台中，能够极大地提

微软发布其基于纯视觉的 GUI 代理的屏幕解析工具 OmniParser 的更新，V2版本， OmniParser 旨在使任何大语言模型（LLM）能够作为计算机使用代理，进行图形用户界面（GUI）自动化。也就是帮助计算机理解和自动执行图形界面操作的工具，它可以让大型语言模型（如 GPT）识

Data Formulator 是微软研究院推出的一个基于人工智能的数据可视化工具，旨在通过结合用户界面的交互和自然语言输入，帮助分析师高效地创建复杂的数据可视化图表。与大多数基于聊天的AI工具不同，如果你经常需要整理数据、转换数据格式、清理数据中的错误信息，那这个工具就能大幅度提升你的工作效

Zyphra 团队发布 Zonos v0.1 的 beta 。这是一个高质量、实时的文本转语音 (TTS) 开源AI 模型，支持高保真语音克隆。这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型：一个是 1.6B 参数的 transformer 模型，另一个是 1.6B

Goku 是一种流式（Flow-Based）视频生成基础模型（Video Generative Foundation Model），由香港大学（HKU）和字节跳动（ByteDance）共同开发。它的核心功能是通过文本输入（Text）转换为高质量视频（Video），适用于电影、广告、动画