Opensource

HealthGPT：支持持 7 种医学理解和 5 种医学生成任务的统一视觉医学专用模型

HealthGPT 是由浙江大学、国立大学新加坡等机构联合研发的医疗大视觉-语言模型（Med-LVLM）。该模型旨在通过一个统一框架，集成医疗领域的视觉理解（comprehension）和视觉生成（generation）能力，提供从诊断问答到图像生成的多功能支持。它基于大语言模型（LLM）并通

阶跃星辰开源了一个130B 语音-文本多模态统一理解与生成模型：Step-Audio Step-Audio 结合了语音理解与生成能力，提供了一种多模态的解决方案，能够有效支持多种语音交互场景。该模型旨在解决现有开源语音模型在语音数据收集、动态控制和智能化方面的局限性。 - 这是一个

UIGEN-T1是基于Qwen-7b 微调的专门用于 UI（用户界面）设计的模型。主要功能是帮助开发者和设计师通过自动化生成 HTML 和 CSS 代码，从而简化 UI 设计和前端开发的过程。它专注于基础的网页布局生成，非常适合快速构建简单的静态页面，特别是在低代码或无代码平台中，能够极大地提

微软发布其基于纯视觉的 GUI 代理的屏幕解析工具 OmniParser 的更新，V2版本， OmniParser 旨在使任何大语言模型（LLM）能够作为计算机使用代理，进行图形用户界面（GUI）自动化。也就是帮助计算机理解和自动执行图形界面操作的工具，它可以让大型语言模型（如 GPT）识

Data Formulator 是微软研究院推出的一个基于人工智能的数据可视化工具，旨在通过结合用户界面的交互和自然语言输入，帮助分析师高效地创建复杂的数据可视化图表。与大多数基于聊天的AI工具不同，如果你经常需要整理数据、转换数据格式、清理数据中的错误信息，那这个工具就能大幅度提升你的工作效

Zyphra 团队发布 Zonos v0.1 的 beta 。这是一个高质量、实时的文本转语音 (TTS) 开源AI 模型，支持高保真语音克隆。这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型：一个是 1.6B 参数的 transformer 模型，另一个是 1.6B

Goku 是一种流式（Flow-Based）视频生成基础模型（Video Generative Foundation Model），由香港大学（HKU）和字节跳动（ByteDance）共同开发。它的核心功能是通过文本输入（Text）转换为高质量视频（Video），适用于电影、广告、动画

Deepseek官方 GitHub 仓库收集并整理了 DeepSeek AI 在各种应用和平台上的开源集成方案，提供了一系列可以直接使用或集成 DeepSeek AI API 的工具、插件和软件。帮助你将 DeepSeek 大模型能力轻松接入各类软件。访问 DeepSeek 开放平台来获取您

视频超分辨率 (Video Super-Resolution, VSR) 是将低分辨率 (LR) 视频转换为高分辨率 (HR) 视频，同时保持清晰的细节和时间一致性。这对于视频修复、高清流媒体、安防监控、医学影像等领域至关重要。 ❌ 传统方法的问题现有的 VSR 方法通常使用：

胸部X光（CXR）是医学影像诊断中的核心工具，每年全球执行超过 42 亿次影像检查。然而，由于对关键解剖结构的系统性评估耗时，放射科医生的工作负担较重。尽管近年来 AI 技术在 CXR 影像分类、分割和自动报告生成等任务上取得了进展，但这些 AI 模型通常是孤立工作的，难以无缝集成到实际的临床