HealthGPT:支持持 7 种医学理解和 5 种医学生成任务的统一视觉医学专用模型
HealthGPT 是由浙江大学、国立大学新加坡等机构联合研发的医疗大视觉-语言模型(Med-LVLM)。 该模型旨在通过一个统一框架,集成医疗领域的视觉理解(comprehension)和视觉生成(generation)能力,提供从诊断问答到图像生成的多功能支持。它基于大语言模型(LLM)并通
HealthGPT 是由浙江大学、国立大学新加坡等机构联合研发的医疗大视觉-语言模型(Med-LVLM)。 该模型旨在通过一个统一框架,集成医疗领域的视觉理解(comprehension)和视觉生成(generation)能力,提供从诊断问答到图像生成的多功能支持。它基于大语言模型(LLM)并通
阶跃星辰开源了一个130B 语音-文本多模态统一理解与生成模型:Step-Audio Step-Audio 结合了语音理解与生成能力,提供了一种多模态的解决方案,能够有效支持多种语音交互场景。 该模型旨在解决现有开源语音模型在语音数据收集、动态控制和智能化方面的局限性。 - 这是一个
UIGEN-T1是基于Qwen-7b 微调的专门用于 UI(用户界面)设计的模型。 主要功能是帮助开发者和设计师通过自动化生成 HTML 和 CSS 代码,从而简化 UI 设计和前端开发的过程。它专注于基础的网页布局生成,非常适合快速构建简单的静态页面,特别是在低代码或无代码平台中,能够极大地提
微软发布其基于纯视觉的 GUI 代理的屏幕解析工具 OmniParser 的更新,V2版本, OmniParser 旨在使任何大语言模型(LLM)能够作为 计算机使用代理,进行 图形用户界面(GUI)自动化。 也就是帮助计算机理解和自动执行图形界面操作的工具,它可以让大型语言模型(如 GPT)识
Data Formulator 是微软研究院推出的一个基于人工智能的数据可视化工具,旨在通过结合用户界面的交互和自然语言输入,帮助分析师高效地创建复杂的数据可视化图表。 与大多数基于聊天的AI工具不同,如果你经常需要整理数据、转换数据格式、清理数据中的错误信息,那这个工具就能大幅度提升你的工作效
Zyphra 团队发布 Zonos v0.1 的 beta 。这是一个 高质量、实时的文本转语音 (TTS) 开源AI 模型,支持 高保真语音克隆。 这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型:一个是 1.6B 参数的 transformer 模型,另一个是 1.6B
Goku 是一种 流式(Flow-Based)视频生成基础模型(Video Generative Foundation Model),由 香港大学(HKU)和字节跳动(ByteDance) 共同开发。 它的核心功能是通过 文本输入(Text)转换为高质量视频(Video),适用于电影、广告、动画
Deepseek官方 GitHub 仓库 收集并整理了 DeepSeek AI 在各种应用和平台上的开源集成方案,提供了一系列可以直接使用或集成 DeepSeek AI API 的工具、插件和软件。 帮助你将 DeepSeek 大模型能力轻松接入各类软件。访问 DeepSeek 开放平台来获取您
视频超分辨率 (Video Super-Resolution, VSR) 是将低分辨率 (LR) 视频转换为高分辨率 (HR) 视频,同时保持清晰的细节和时间一致性。 这对于视频修复、高清流媒体、安防监控、医学影像等领域至关重要。 ❌ 传统方法的问题 现有的 VSR 方法通常使用:
胸部X光(CXR)是医学影像诊断中的核心工具,每年全球执行超过 42 亿次 影像检查。然而,由于对关键解剖结构的系统性评估耗时,放射科医生的工作负担较重。尽管近年来 AI 技术 在 CXR 影像分类、分割和自动报告生成等任务上取得了进展,但这些 AI 模型通常是 孤立工作的,难以无缝集成到实际的临床