全球全景日报 | goodinfo.net

Deepseek官方推荐 Awesome 开源项目汇总将 DeepSeek 大模型能力轻松接入各类软件

Deepseek官方 GitHub 仓库收集并整理了 DeepSeek AI 在各种应用和平台上的开源集成方案，提供了一系列可以直接使用或集成 DeepSeek AI API 的工具、插件和软件。帮助你将 DeepSeek 大模型能力轻松接入各类软件。访问 DeepSeek 开放平台来获取您

视频超分辨率 (Video Super-Resolution, VSR) 是将低分辨率 (LR) 视频转换为高分辨率 (HR) 视频，同时保持清晰的细节和时间一致性。这对于视频修复、高清流媒体、安防监控、医学影像等领域至关重要。 ❌ 传统方法的问题现有的 VSR 方法通常使用：

胸部X光（CXR）是医学影像诊断中的核心工具，每年全球执行超过 42 亿次影像检查。然而，由于对关键解剖结构的系统性评估耗时，放射科医生的工作负担较重。尽管近年来 AI 技术在 CXR 影像分类、分割和自动报告生成等任务上取得了进展，但这些 AI 模型通常是孤立工作的，难以无缝集成到实际的临床

Hibiki 是一个实时语音翻译系统，可以在你说话的同时，立刻把语音翻译成另一种语言，并用自然的语音播放出来，不需要等到你说完整句话。与传统的离线翻译不同，Hibiki 可以实时逐步生成目标语言的语音，而无需等待源语言句子完全结束，支持**语音传输（voice transfer）**及文本翻译

ASAP（Aligning Simulation and Real-World Physics）是由NVIDIA 和卡内基梅隆大学推出的一个专为人形机器人设计的框架，旨在解决仿真和真实物理之间的动态不匹配问题。该框架通过一个两阶段的过程，使得机器人可以在仿真环境中预先训练，之后将这些训练过的策

Llasa TTS：是由香港科技大学开发的一个文本到语音（TTS）系统，基于 LLaMA 语言模型（ 1B、3B 和 8B 参数规模），通过整合 XCodec2 的语音 token 提供语音生成功能。模型训练使用了 250,000 小时的中英双语语音数据，可实现以下两种语音生成模式： 1.

TokenVerse 是一种创新的文本到图像生成框架，旨在实现多概念个性化生成。它可以从图像中提取复杂的视觉概念（如对象、姿势、光照、材质等），并将这些概念灵活组合到新的图像中，生成具有特定语义特征的内容。也就是它可以把图像中的内容（比如某个物品、姿势、光线效果等）分离出来，然后再重新自由组合

当前的大多数 AI 应用都采用传统的聊天（“Chat”）用户界面，这种模式容易实现，但带来了如下问题： 1. 过多的交互步骤，需要频繁与 AI 互动，耗费用户时间和精力，增加了用户的操作负担。 2. 无法同时处理多个任务，一次只能进行一个任务，效率低，限制了人类的扩展能力。 3. 未

SakanaAI 发布一一种革命性的 AI 架构，允许模型在推理时动态调整权重，打破传统模型静态的局限性。 Transformer² 是什么？ Transformer² 是一种新型的自适应大语言模型（LLM）框架，旨在解决传统微调方法中存在的效率低下和适应性差的问题。其核心创新在于通过只调

面壁智能推出 MiniCPM-o 2.6，一个 8B 大小、匹敌GPT-4o 级别的全能模型，可在移动设备上运行 - 领先的视觉能力：超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等 - 支持中英双语实时语音对话，并提供情感/速度/风格控