Opensource

Hibiki ：一个实时语音翻译系统无需等到你说完整句话边说话的同时边翻译还能保留原说话人的音色

Hibiki 是一个实时语音翻译系统，可以在你说话的同时，立刻把语音翻译成另一种语言，并用自然的语音播放出来，不需要等到你说完整句话。与传统的离线翻译不同，Hibiki 可以实时逐步生成目标语言的语音，而无需等待源语言句子完全结束，支持**语音传输（voice transfer）**及文本翻译

ASAP（Aligning Simulation and Real-World Physics）是由NVIDIA 和卡内基梅隆大学推出的一个专为人形机器人设计的框架，旨在解决仿真和真实物理之间的动态不匹配问题。该框架通过一个两阶段的过程，使得机器人可以在仿真环境中预先训练，之后将这些训练过的策

Llasa TTS：是由香港科技大学开发的一个文本到语音（TTS）系统，基于 LLaMA 语言模型（ 1B、3B 和 8B 参数规模），通过整合 XCodec2 的语音 token 提供语音生成功能。模型训练使用了 250,000 小时的中英双语语音数据，可实现以下两种语音生成模式： 1.

TokenVerse 是一种创新的文本到图像生成框架，旨在实现多概念个性化生成。它可以从图像中提取复杂的视觉概念（如对象、姿势、光照、材质等），并将这些概念灵活组合到新的图像中，生成具有特定语义特征的内容。也就是它可以把图像中的内容（比如某个物品、姿势、光线效果等）分离出来，然后再重新自由组合

当前的大多数 AI 应用都采用传统的聊天（“Chat”）用户界面，这种模式容易实现，但带来了如下问题： 1. 过多的交互步骤，需要频繁与 AI 互动，耗费用户时间和精力，增加了用户的操作负担。 2. 无法同时处理多个任务，一次只能进行一个任务，效率低，限制了人类的扩展能力。 3. 未

SakanaAI 发布一一种革命性的 AI 架构，允许模型在推理时动态调整权重，打破传统模型静态的局限性。 Transformer² 是什么？ Transformer² 是一种新型的自适应大语言模型（LLM）框架，旨在解决传统微调方法中存在的效率低下和适应性差的问题。其核心创新在于通过只调

面壁智能推出 MiniCPM-o 2.6，一个 8B 大小、匹敌GPT-4o 级别的全能模型，可在移动设备上运行 - 领先的视觉能力：超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等 - 支持中英双语实时语音对话，并提供情感/速度/风格控

Moondream 是一个小型视觉语言模型，旨在高效地在边缘设备上运行，由moondream.ai开发。 Moondream发布了其最新的Moondream 2B模型，专为处理图像与文本相关任务而设计。它通过整合计算机视觉与自然语言处理技术，能够对图像中的内容进行分析、理解和交互。这个模型

SVFR（稳定视频面部修复）是一种专门用来修复视频中人脸的技术，可以让模糊、损坏或者颜色不对的视频人脸变得清晰、自然。它不仅能修复人脸的细节，还能让整个视频看起来连贯一致，不会有卡顿或奇怪的变化。 SVFR提供了一个统一框架，可以同时完成视频盲修复、面部修补和面部着色任务，无需为每个任务单独训练

项目背景 TransPixar 是一个创新的生成视频模型，专注于生成包括透明度通道（alpha 通道）的 RGBA 视频。相比传统的 RGB 视频，RGBA 视频能够实现更丰富的视觉效果（VFX），例如透明的烟雾、反射等，方便这些元素无缝地与场景融合。该项目由香港科技大学（HKUST）与