Deepseek官方推荐 Awesome 开源项目汇总 将 DeepSeek 大模型能力轻松接入各类软件
Deepseek官方 GitHub 仓库 收集并整理了 DeepSeek AI 在各种应用和平台上的开源集成方案,提供了一系列可以直接使用或集成 DeepSeek AI API 的工具、插件和软件。 帮助你将 DeepSeek 大模型能力轻松接入各类软件。访问 DeepSeek 开放平台来获取您
Deepseek官方 GitHub 仓库 收集并整理了 DeepSeek AI 在各种应用和平台上的开源集成方案,提供了一系列可以直接使用或集成 DeepSeek AI API 的工具、插件和软件。 帮助你将 DeepSeek 大模型能力轻松接入各类软件。访问 DeepSeek 开放平台来获取您
视频超分辨率 (Video Super-Resolution, VSR) 是将低分辨率 (LR) 视频转换为高分辨率 (HR) 视频,同时保持清晰的细节和时间一致性。 这对于视频修复、高清流媒体、安防监控、医学影像等领域至关重要。 ❌ 传统方法的问题 现有的 VSR 方法通常使用:
胸部X光(CXR)是医学影像诊断中的核心工具,每年全球执行超过 42 亿次 影像检查。然而,由于对关键解剖结构的系统性评估耗时,放射科医生的工作负担较重。尽管近年来 AI 技术 在 CXR 影像分类、分割和自动报告生成等任务上取得了进展,但这些 AI 模型通常是 孤立工作的,难以无缝集成到实际的临床
Hibiki 是一个实时语音翻译系统,可以在你说话的同时,立刻把语音翻译成另一种语言,并用自然的语音播放出来,不需要等到你说完整句话。 与传统的离线翻译不同,Hibiki 可以实时逐步生成目标语言的语音,而无需等待源语言句子完全结束,支持**语音传输(voice transfer)**及文本翻译
ASAP(Aligning Simulation and Real-World Physics)是由NVIDIA 和卡内基梅隆大学推出的一个专为人形机器人设计的框架,旨在解决仿真和真实物理之间的动态不匹配问题。 该框架通过一个两阶段的过程,使得机器人可以在仿真环境中预先训练,之后将这些训练过的策
Llasa TTS:是由香港科技大学开发的一个文本到语音(TTS)系统,基于 LLaMA 语言模型( 1B、3B 和 8B 参数规模),通过整合 XCodec2 的语音 token 提供语音生成功能。 模型训练使用了 250,000 小时的中英双语语音数据,可实现以下两种语音生成模式: 1.
TokenVerse 是一种创新的文本到图像生成框架,旨在实现多概念个性化生成。它可以从图像中提取复杂的视觉概念(如对象、姿势、光照、材质等),并将这些概念灵活组合到新的图像中,生成具有特定语义特征的内容。 也就是它可以把图像中的内容(比如某个物品、姿势、光线效果等)分离出来,然后再重新自由组合
当前的大多数 AI 应用都采用传统的聊天(“Chat”)用户界面,这种模式容易实现,但带来了如下问题: 1. 过多的交互步骤,需要频繁与 AI 互动,耗费用户时间和精力,增加了用户的操作负担。 2. 无法同时处理多个任务,一次只能进行一个任务,效率低,限制了人类的扩展能力。 3. 未
SakanaAI 发布一一种革命性的 AI 架构,允许模型在推理时动态调整权重,打破传统模型静态的局限性。 Transformer² 是什么? Transformer² 是一种新型的自适应大语言模型(LLM)框架,旨在解决传统微调方法中存在的效率低下和适应性差的问题。其核心创新在于通过只调
面壁智能推出 MiniCPM-o 2.6,一个 8B 大小、匹敌GPT-4o 级别的全能模型,可在移动设备上运行 - 领先的视觉能力:超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等 - 支持中英双语实时语音对话,并提供情感/速度/风格控