HealthGPT:支持持 7 种医学理解和 5 种医学生成任务的统一视觉医学专用模型

HealthGPT 是由浙江大学、国立大学新加坡等机构联合研发的医疗大视觉-语言模型(Med-LVLM)。 该模型旨在通过一个统一框架,集成医疗领域的视觉理解(comprehension)和视觉生成(generation)能力,提供从诊断问答到图像生成的多功能支持。它基于大语言模型(LLM)并通

2025-02-19 08:00 · opensource · goodinfo.net

Step-Audio:阶跃星辰开源了一个130B 语音-文本的多模态模型 集成了工具调用和角色扮演能力

阶跃星辰开源了一个130B 语音-文本多模态统一理解与生成模型:Step-Audio Step-Audio 结合了语音理解与生成能力,提供了一种多模态的解决方案,能够有效支持多种语音交互场景。 该模型旨在解决现有开源语音模型在语音数据收集、动态控制和智能化方面的局限性。 - 这是一个

2025-02-18 08:00 · opensource · goodinfo.net

UIGEN-T1:一个开源的 UI 设计生成工具 能够根据用户输入的提示,推理生成基本的网页布局

UIGEN-T1是基于Qwen-7b 微调的专门用于 UI(用户界面)设计的模型。 主要功能是帮助开发者和设计师通过自动化生成 HTML 和 CSS 代码,从而简化 UI 设计和前端开发的过程。它专注于基础的网页布局生成,非常适合快速构建简单的静态页面,特别是在低代码或无代码平台中,能够极大地提

2025-02-17 08:00 · opensource · goodinfo.net

微软发布OmniParser V2 将任何大语言模型转变为一个可以与计算机交互的智能代理

微软发布其基于纯视觉的 GUI 代理的屏幕解析工具 OmniParser 的更新,V2版本, OmniParser 旨在使任何大语言模型(LLM)能够作为 计算机使用代理,进行 图形用户界面(GUI)自动化。 也就是帮助计算机理解和自动执行图形界面操作的工具,它可以让大型语言模型(如 GPT)识

2025-02-16 08:00 · opensource · goodinfo.net

Data Formulator :微软研究院推出基于人工智能的数据可视化工具 AI 自动帮你处理数据并生成图表

Data Formulator 是微软研究院推出的一个基于人工智能的数据可视化工具,旨在通过结合用户界面的交互和自然语言输入,帮助分析师高效地创建复杂的数据可视化图表。 与大多数基于聊天的AI工具不同,如果你经常需要整理数据、转换数据格式、清理数据中的错误信息,那这个工具就能大幅度提升你的工作效

2025-02-13 08:00 · opensource · goodinfo.net

Zonos:一个 高质量、实时的文本转语音 (TTS) 开源模型,支持高保真语音克隆 媲美ElevenLabs

Zyphra 团队发布 Zonos v0.1 的 beta 。这是一个 高质量、实时的文本转语音 (TTS) 开源AI 模型,支持 高保真语音克隆。 这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型:一个是 1.6B 参数的 transformer 模型,另一个是 1.6B

2025-02-11 08:00 · opensource · goodinfo.net

字节跳动发布新的视频生成基础模型Goku 可直接生成数字人

Goku 是一种 流式(Flow-Based)视频生成基础模型(Video Generative Foundation Model),由 香港大学(HKU)和字节跳动(ByteDance) 共同开发。 它的核心功能是通过 文本输入(Text)转换为高质量视频(Video),适用于电影、广告、动画

2025-02-10 08:00 · opensource · goodinfo.net

Deepseek官方推荐 Awesome 开源项目汇总 将 DeepSeek 大模型能力轻松接入各类软件

Deepseek官方 GitHub 仓库 收集并整理了 DeepSeek AI 在各种应用和平台上的开源集成方案,提供了一系列可以直接使用或集成 DeepSeek AI API 的工具、插件和软件。 帮助你将 DeepSeek 大模型能力轻松接入各类软件。访问 DeepSeek 开放平台来获取您

2025-02-09 08:00 · opensource · goodinfo.net

STAR:首个结合文本到视频(T2V)扩散模型的时空增强视频超分辨率模型 超越现有 SOTA 方法

视频超分辨率 (Video Super-Resolution, VSR) 是将低分辨率 (LR) 视频转换为高分辨率 (HR) 视频,同时保持清晰的细节和时间一致性。 这对于视频修复、高清流媒体、安防监控、医学影像等领域至关重要。 ❌ 传统方法的问题 现有的 VSR 方法通常使用:

2025-02-09 08:00 · opensource · goodinfo.net

MedRAX:一款开创性的医学推理代理,专门用于胸部 X 光片解读 整合了多个专门医学影像 AI 模型

胸部X光(CXR)是医学影像诊断中的核心工具,每年全球执行超过 42 亿次 影像检查。然而,由于对关键解剖结构的系统性评估耗时,放射科医生的工作负担较重。尽管近年来 AI 技术 在 CXR 影像分类、分割和自动报告生成等任务上取得了进展,但这些 AI 模型通常是 孤立工作的,难以无缝集成到实际的临床

2025-02-08 08:00 · opensource · goodinfo.net