Data Formulator :微软研究院推出基于人工智能的数据可视化工具 AI 自动帮你处理数据并生成图表
Data Formulator 是微软研究院推出的一个基于人工智能的数据可视化工具,旨在通过结合用户界面的交互和自然语言输入,帮助分析师高效地创建复杂的数据可视化图表。 与大多数基于聊天的AI工具不同,如果你经常需要整理数据、转换数据格式、清理数据中的错误信息,那这个工具就能大幅度提升你的工作效
Data Formulator 是微软研究院推出的一个基于人工智能的数据可视化工具,旨在通过结合用户界面的交互和自然语言输入,帮助分析师高效地创建复杂的数据可视化图表。 与大多数基于聊天的AI工具不同,如果你经常需要整理数据、转换数据格式、清理数据中的错误信息,那这个工具就能大幅度提升你的工作效
Zyphra 团队发布 Zonos v0.1 的 beta 。这是一个 高质量、实时的文本转语音 (TTS) 开源AI 模型,支持 高保真语音克隆。 这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型:一个是 1.6B 参数的 transformer 模型,另一个是 1.6B
Goku 是一种 流式(Flow-Based)视频生成基础模型(Video Generative Foundation Model),由 香港大学(HKU)和字节跳动(ByteDance) 共同开发。 它的核心功能是通过 文本输入(Text)转换为高质量视频(Video),适用于电影、广告、动画
Deepseek官方 GitHub 仓库 收集并整理了 DeepSeek AI 在各种应用和平台上的开源集成方案,提供了一系列可以直接使用或集成 DeepSeek AI API 的工具、插件和软件。 帮助你将 DeepSeek 大模型能力轻松接入各类软件。访问 DeepSeek 开放平台来获取您
视频超分辨率 (Video Super-Resolution, VSR) 是将低分辨率 (LR) 视频转换为高分辨率 (HR) 视频,同时保持清晰的细节和时间一致性。 这对于视频修复、高清流媒体、安防监控、医学影像等领域至关重要。 ❌ 传统方法的问题 现有的 VSR 方法通常使用:
胸部X光(CXR)是医学影像诊断中的核心工具,每年全球执行超过 42 亿次 影像检查。然而,由于对关键解剖结构的系统性评估耗时,放射科医生的工作负担较重。尽管近年来 AI 技术 在 CXR 影像分类、分割和自动报告生成等任务上取得了进展,但这些 AI 模型通常是 孤立工作的,难以无缝集成到实际的临床
Hibiki 是一个实时语音翻译系统,可以在你说话的同时,立刻把语音翻译成另一种语言,并用自然的语音播放出来,不需要等到你说完整句话。 与传统的离线翻译不同,Hibiki 可以实时逐步生成目标语言的语音,而无需等待源语言句子完全结束,支持**语音传输(voice transfer)**及文本翻译
ASAP(Aligning Simulation and Real-World Physics)是由NVIDIA 和卡内基梅隆大学推出的一个专为人形机器人设计的框架,旨在解决仿真和真实物理之间的动态不匹配问题。 该框架通过一个两阶段的过程,使得机器人可以在仿真环境中预先训练,之后将这些训练过的策
Llasa TTS:是由香港科技大学开发的一个文本到语音(TTS)系统,基于 LLaMA 语言模型( 1B、3B 和 8B 参数规模),通过整合 XCodec2 的语音 token 提供语音生成功能。 模型训练使用了 250,000 小时的中英双语语音数据,可实现以下两种语音生成模式: 1.
TokenVerse 是一种创新的文本到图像生成框架,旨在实现多概念个性化生成。它可以从图像中提取复杂的视觉概念(如对象、姿势、光照、材质等),并将这些概念灵活组合到新的图像中,生成具有特定语义特征的内容。 也就是它可以把图像中的内容(比如某个物品、姿势、光线效果等)分离出来,然后再重新自由组合