PhotoDoodle :基于少样本学习的 AI 图像编辑工具 仅 30-50 张示例图片可让AI学会任何艺术风格并进行图像编辑

PhotoDoodle 是 新加坡国立大学 Show Lab 与 Tiamat AI 合作开发的 AI 图像编辑工具,旨在通过 少样本数据(Few-Shot Learning)学习 进行艺术风格迁和图像编辑。 它可以通过 训练 AI,让 AI 学会某种艺术风格,并将其应用到新的图像上。 相比

2025-03-03 08:00 · opensource · goodinfo.net

olmOCR:开源OCR工具 可以将 PDF 和其他文档高质量转换为纯文本 同时保留自然的阅读顺序

olmOCR 是由 Allen Institute for AI (AI2) 开发的一款 开源 OCR(光学字符识别)工具,专门用于 高精度从 PDF 文本提取,能保持文本的 阅读顺序,并支持 表格、数学公式、手写内容 的解析。 主要优势包括: - 高性能:在 25 万页 多样化 PDF

2025-03-01 08:00 · opensource · goodinfo.net

FoleyCrafter:精准的为无声视频自动配音 自动生成同步且逼真的声音

FoleyCrafter 是一个能够为无声视频生成同步且逼真的声音效果的开源系统。用于自动生成与视频同步的高质量音效,从而实现身临其境的视听体验。它可以根据视频内容生成相关的声音,比如在视频里看到狗,FoleyCrafter 就会生成狗叫的声音。 它利用了一个预训练的文本到音频模型,并通过两个关

2025-02-23 08:00 · opensource · goodinfo.net

HealthGPT:支持持 7 种医学理解和 5 种医学生成任务的统一视觉医学专用模型

HealthGPT 是由浙江大学、国立大学新加坡等机构联合研发的医疗大视觉-语言模型(Med-LVLM)。 该模型旨在通过一个统一框架,集成医疗领域的视觉理解(comprehension)和视觉生成(generation)能力,提供从诊断问答到图像生成的多功能支持。它基于大语言模型(LLM)并通

2025-02-19 08:00 · opensource · goodinfo.net

Step-Audio:阶跃星辰开源了一个130B 语音-文本的多模态模型 集成了工具调用和角色扮演能力

阶跃星辰开源了一个130B 语音-文本多模态统一理解与生成模型:Step-Audio Step-Audio 结合了语音理解与生成能力,提供了一种多模态的解决方案,能够有效支持多种语音交互场景。 该模型旨在解决现有开源语音模型在语音数据收集、动态控制和智能化方面的局限性。 - 这是一个

2025-02-18 08:00 · opensource · goodinfo.net

UIGEN-T1:一个开源的 UI 设计生成工具 能够根据用户输入的提示,推理生成基本的网页布局

UIGEN-T1是基于Qwen-7b 微调的专门用于 UI(用户界面)设计的模型。 主要功能是帮助开发者和设计师通过自动化生成 HTML 和 CSS 代码,从而简化 UI 设计和前端开发的过程。它专注于基础的网页布局生成,非常适合快速构建简单的静态页面,特别是在低代码或无代码平台中,能够极大地提

2025-02-17 08:00 · opensource · goodinfo.net

微软发布OmniParser V2 将任何大语言模型转变为一个可以与计算机交互的智能代理

微软发布其基于纯视觉的 GUI 代理的屏幕解析工具 OmniParser 的更新,V2版本, OmniParser 旨在使任何大语言模型(LLM)能够作为 计算机使用代理,进行 图形用户界面(GUI)自动化。 也就是帮助计算机理解和自动执行图形界面操作的工具,它可以让大型语言模型(如 GPT)识

2025-02-16 08:00 · opensource · goodinfo.net

Data Formulator :微软研究院推出基于人工智能的数据可视化工具 AI 自动帮你处理数据并生成图表

Data Formulator 是微软研究院推出的一个基于人工智能的数据可视化工具,旨在通过结合用户界面的交互和自然语言输入,帮助分析师高效地创建复杂的数据可视化图表。 与大多数基于聊天的AI工具不同,如果你经常需要整理数据、转换数据格式、清理数据中的错误信息,那这个工具就能大幅度提升你的工作效

2025-02-13 08:00 · opensource · goodinfo.net

Zonos:一个 高质量、实时的文本转语音 (TTS) 开源模型,支持高保真语音克隆 媲美ElevenLabs

Zyphra 团队发布 Zonos v0.1 的 beta 。这是一个 高质量、实时的文本转语音 (TTS) 开源AI 模型,支持 高保真语音克隆。 这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型:一个是 1.6B 参数的 transformer 模型,另一个是 1.6B

2025-02-11 08:00 · opensource · goodinfo.net

字节跳动发布新的视频生成基础模型Goku 可直接生成数字人

Goku 是一种 流式(Flow-Based)视频生成基础模型(Video Generative Foundation Model),由 香港大学(HKU)和字节跳动(ByteDance) 共同开发。 它的核心功能是通过 文本输入(Text)转换为高质量视频(Video),适用于电影、广告、动画

2025-02-10 08:00 · opensource · goodinfo.net