Paper2Video：将任何学术论文自动”变成“演讲视频”

📰 正文

👉 Paper2Video 是一个让 AI 自动把“学术论文”变成“演讲视频”的系统。

它能自动生成类似会议上作者讲论文的视频展示：你只需要提供：

论文（LaTeX 格式）

一张作者照片

一段语音样本然后系统会自动：

生成 PPT + 字幕 + 语音解说 + 光标动画 +（可选）作者虚拟讲解视频。

项目背景与意义

研究人员写完论文后，常常还得：

做幻灯片；

录讲解视频；

加字幕、配音。

这些步骤既耗时又重复。

而 Paper2Video 的目标是：

让 AI 来自动完成这些工作，把论文“一键转成讲解视频”。

这对科研传播有两个意义： 1.

让论文更容易被理解和传播（特别是跨领域读者）。

让研究者能更快发布视频讲解，提升曝光度与学术影响力。

系统组成模块

它是一个由多个 AI 智能体（agents）协作的多模块系统。

👇 整体流程如下

系统主要由两部分组成：

① PaperTalker：生成系统

多智能体（multi-agent）AI框架，用来“生成视频”。

② Paper2Video Benchmark：评估系统

一个专门的科研视频数据集与评估指标体系，用来“衡量AI视频质量”。

1️⃣ PaperTalker

负责“制作视频”的 AI 模块。

它能自动完成：

提取论文核心内容；

生成幻灯片（slides）；

生成字幕；

合成语音讲解；

光标动作；

虚拟人像口型同步（talking-head，可选）。

换句话说，它像一个“AI 论文讲解机器人”。

2️⃣ Paper2Video Benchmark

负责“评价视频效果”的模块。

因为科学视频不同于娱乐视频，它需要评估：

是否准确传达研究核心；

是否易于观众理解；

是否突出了作者贡献。

他们为此提出了 4 个专门的指标：

指标含义Meta Similarity视频与论文内容的一致性PresentArena视频演讲的表现力PresentQuiz视频内容的知识可测性IP Memory观众是否能记住研究主题和作者

系统运行流程（技术逻辑）

整个自动生成视频的流程如下：

论文 (LaTeX)
   ↓
AI提取论文结构与核心内容
   ↓
生成幻灯片 (Beamer)
   ↓
生成字幕文本
   ↓
合成语音解说 (TTS)
   ↓
添加光标动画 (Cursor)
   ↓
生成虚拟讲者视频 (可选)
   ↓
输出完整演讲视频

💡 如果不需要“人像视频”，可以用“轻量模式（pipeline_light.py）”快速生成，仅需几分钟。

运行环境与依赖

主要技术环境：

Python 3.10

Conda 虚拟环境

GPU 建议：NVIDIA A6000（48G显存）

依赖模型：

LLM：GPT-4.1、Gemini 2.5 Pro 或本地开源模型（如 Qwen）

Talking Head 模块：基于 Hallo2

视频评估模型：集成 OpenAI / Gemini API

一些案例

“The forward-forward algorithm: Some preliminary investigations.” by Hinton, Geoffrey. 🔗 “前向-前向算法：一些初步研究。” 作者：Geoffrey Hinton。

🔗 “SANA: Efficient high-resolution image synthesis with linear diffusion transformers.” by Jensen Huang 🔗 “SANA：基于线性扩散变换器的高分辨率图像高效合成。” 作者：黄仁勋

🔗 “Paper2Video: Automatic Video Generation from Scientific Papers.” by Tan Eng Chye 🔗 “Paper2Video：从科学论文自动生成视频。” 作者：陈庆炎

🔗 “Character-level Convolutional Networks for Text Classification.” by Yann LeCun 🔗 “用于文本分类的字符级卷积网络。” 作者：Yann LeCun

项目地址：https://showlab.github.io/Paper2Video/

技术报告：https://arxiv.org/abs/2510.05096

GitHub：https://github.com/showlab/Paper2Video

来源：Paper2Video：将任何学术论文自动”变成“演讲视频”

📰 正文#

📰 正文