Deepseek官方推荐 Awesome 开源项目汇总 将 DeepSeek 大模型能力轻松接入各类软件

Deepseek官方 GitHub 仓库 收集并整理了 DeepSeek AI 在各种应用和平台上的开源集成方案,提供了一系列可以直接使用或集成 DeepSeek AI API 的工具、插件和软件。 帮助你将 DeepSeek 大模型能力轻松接入各类软件。访问 DeepSeek 开放平台来获取您

2025-02-09 08:00 · opensource · goodinfo.net

STAR:首个结合文本到视频(T2V)扩散模型的时空增强视频超分辨率模型 超越现有 SOTA 方法

视频超分辨率 (Video Super-Resolution, VSR) 是将低分辨率 (LR) 视频转换为高分辨率 (HR) 视频,同时保持清晰的细节和时间一致性。 这对于视频修复、高清流媒体、安防监控、医学影像等领域至关重要。 ❌ 传统方法的问题 现有的 VSR 方法通常使用:

2025-02-09 08:00 · opensource · goodinfo.net

MedRAX:一款开创性的医学推理代理,专门用于胸部 X 光片解读 整合了多个专门医学影像 AI 模型

胸部X光(CXR)是医学影像诊断中的核心工具,每年全球执行超过 42 亿次 影像检查。然而,由于对关键解剖结构的系统性评估耗时,放射科医生的工作负担较重。尽管近年来 AI 技术 在 CXR 影像分类、分割和自动报告生成等任务上取得了进展,但这些 AI 模型通常是 孤立工作的,难以无缝集成到实际的临床

2025-02-08 08:00 · opensource · goodinfo.net

Hibiki :一个实时语音翻译系统 无需等到你说完整句话 边说话的同时边翻译 还能保留原说话人的音色

Hibiki 是一个实时语音翻译系统,可以在你说话的同时,立刻把语音翻译成另一种语言,并用自然的语音播放出来,不需要等到你说完整句话。 与传统的离线翻译不同,Hibiki 可以实时逐步生成目标语言的语音,而无需等待源语言句子完全结束,支持**语音传输(voice transfer)**及文本翻译

2025-02-06 08:00 · opensource · goodinfo.net

ASAP:帮助机器人在模拟环境中学会动作后,能够准确地在真实世界中执行这些动作

ASAP(Aligning Simulation and Real-World Physics)是由NVIDIA 和卡内基梅隆大学推出的一个专为人形机器人设计的框架,旨在解决仿真和真实物理之间的动态不匹配问题。 该框架通过一个两阶段的过程,使得机器人可以在仿真环境中预先训练,之后将这些训练过的策

2025-02-04 08:00 · opensource · goodinfo.net

Llasa TTS: 基于Llama 3.2 的超真实语音克隆模型 支持中英文

Llasa TTS:是由香港科技大学开发的一个文本到语音(TTS)系统,基于 LLaMA 语言模型( 1B、3B 和 8B 参数规模),通过整合 XCodec2 的语音 token 提供语音生成功能。 模型训练使用了 250,000 小时的中英双语语音数据,可实现以下两种语音生成模式: 1.

2025-01-25 08:00 · opensource · goodinfo.net

TokenVerse :从多张图像中提取复杂视觉元素 然后再重新自由组合,生成新的图像

TokenVerse 是一种创新的文本到图像生成框架,旨在实现多概念个性化生成。它可以从图像中提取复杂的视觉概念(如对象、姿势、光照、材质等),并将这些概念灵活组合到新的图像中,生成具有特定语义特征的内容。 也就是它可以把图像中的内容(比如某个物品、姿势、光线效果等)分离出来,然后再重新自由组合

2025-01-25 08:00 · opensource · goodinfo.net

Ambient Agents:自动监听用户设定任务的事件 自主采取行动帮你完成

当前的大多数 AI 应用都采用传统的聊天(“Chat”)用户界面,这种模式容易实现,但带来了如下问题: 1. 过多的交互步骤,需要频繁与 AI 互动,耗费用户时间和精力,增加了用户的操作负担。 2. 无法同时处理多个任务,一次只能进行一个任务,效率低,限制了人类的扩展能力。 3. 未

2025-01-19 08:00 · opensource · goodinfo.net

SakanaAI 发布一种革命性的AI模型架构:Transformer² 动态激活特定“专家”来针对特定任务

SakanaAI 发布一一种革命性的 AI 架构,允许模型在推理时动态调整权重,打破传统模型静态的局限性。 Transformer² 是什么? Transformer² 是一种新型的自适应大语言模型(LLM)框架,旨在解决传统微调方法中存在的效率低下和适应性差的问题。其核心创新在于通过只调

2025-01-19 08:00 · opensource · goodinfo.net

面壁智能推出 MiniCPM-o 2.6 匹敌GPT-4o 级别的全能多模态端侧模型

面壁智能推出 MiniCPM-o 2.6,一个 8B 大小、匹敌GPT-4o 级别的全能模型,可在移动设备上运行 - 领先的视觉能力:超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等 - 支持中英双语实时语音对话,并提供情感/速度/风格控

2025-01-14 08:00 · opensource · goodinfo.net