Chapter-Llama：将小时级别的长视频自动划分为语义清晰的章节 并生成简洁准确的标题

📰 正文

随着在线视频平台（如YouTube）的普及，上传视频的时长逐年增加。

根据研究，截至2020年，25%的视频超过15分钟，5%的视频甚至超过3小时。

长视频（如新闻、体育、教育、Vlog等）通常包含多个主题，内容跨度大，用户难以快速定位感兴趣的部分。

用户查找特定内容变得困难，视频内容导航与索引需求显著上升。

当前研究大多集中在短视频分析（几秒到几分钟），对**长视频章节划分（video chaptering）**关注不足。

手动标注章节耗时费力，自动化的需求日益凸显。

因此，自动视频章节划分（即将长视频分割成语义单元并生成章节标题）成为一个亟待解决的问题，它能提升内容导航和检索效率。

Chapter-Llama 是一个由大语言模型（LLM）驱动的视频自动分章节系统。它解决了长视频内容难以导航和查找的问题

它能够将小时级别的长视频自动划分为语义清晰的章节，并为每个章节生成简洁准确的标题。

基于大模型（ LLaMA 3.1）处理文本输入，包括：

视频的语音转录（ASR）

视频关键帧的图像字幕（Caption）

🛠️ Chapter-Llama的作用：

自动将长视频划分为多个语义清晰的部分（比如每个讲解段落、每个话题转换）。

自动生成每个章节的标题。

无需依赖完整的视频图像内容，只需文本就能完成任务，效率极高。

Chapter-Llama 的主要功能

技术方法

它先把视频的说话内容转成文字（ASR语音识别），然后从视频中挑一些关键画面，再用图像描述模型“讲”出这些画面里发生了什么。

把这些信息全都转换成文字，加上时间点，输入给一个经过训练的大语言模型（LLM），让它自己输出“00:01:12 房间介绍”这样的章节标题。

为了应对很长的视频，它把视频切块分段预测，结果再拼接起来。

1️⃣ 多模态转文本输入

2️⃣ 语音驱动帧选择（Speech-guided Frame Selection）

利用一个仅基于语音的 LLM 版本预估章节边界，推断哪些时间点可能是章节起始。

在这些时间点抽取图像帧并生成描述，节省大量视觉计算资源。

比传统方法（等距抽帧、镜头检测）更精准、成本更低。

3️⃣ 大语言模型（LLM）处理

使用 Llama 3.1 8B-Instruct 模型作为主力架构。

输入：由 ASR 和图像描述文本串联而成的多模态时间线。

输出：一串章节定义，包括起始时间+标题。

微调技术：使用 LoRA（Low-Rank Adaptation）进行高效微调，适应特定任务，内存开销小（参数仅13MB）。

4️⃣ 迭代预测机制（Iterative Chunking）

为解决 LLM 上下文窗口限制（训练约15K token，推理约25K token），采用迭代式处理：

将长视频按时间块分段处理。

每段预测完成后拼接所有章节输出，确保处理任意时长视频。

实验结果

Chapter-Llama 与目前最强的基线方法 Vid2Seq（2023）进行比较，实验结果如下（在完整测试集上）：

📈 提升说明：

F1 提升 +18.6

tIoU 提升 +13.2

CIDEr 几乎提升一倍

此外，Chapter-Llama 还在未微调（zero-shot）情况下超过 Vid2Seq 的训练版（F1：29.5 vs 26.7），展现出更强的鲁棒性和泛化能力。

✅ 优势分析：

章节划分更精准，边界时间误差小

标题更具语义性与多样性

尤其在中长视频（15~60分钟）段落划分上提升更显著

帧采样策略

语音驱动帧采样性能最好（仅用约10帧即可超越100帧的Vid2Seq）。

比“每10秒采样”或“shot boundary”更高效、效果更好。

微调数据量

🚀 零样本（Zero-shot）设置也表现优异：

无需微调，仅利用提示+语音+图像字幕输入，F1也能达到 29.5

对比同类模型如 GPT-4o、Gemini 等，Chapter-Llama 微调后表现更强

✅ 结论：

Chapter-Llama 在准确性、效率和可扩展性方面全面超越现有方法：

在所有主流指标上显著领先；

用极少训练数据获得高性能；

在多模态理解与高效处理方面有良好平衡；

即使在零样本设置下也具有出色的泛化能力。

Chapter-Llama 在所有关键评估指标上显著优于现有最佳方法，特别适用于长视频。

其语音驱动采样策略和大语言模型微调方法是性能提升的关键。

使用少量数据和低资源成本就能获得高性能，具备极高的实用性和可落地性。

项目地址：https://imagine.enpc.fr/~lucas.ventura/chapter-llama/

论文：https://arxiv.org/pdf/2504.00072

GitHub：

来源：Chapter-Llama：将小时级别的长视频自动划分为语义清晰的章节并生成简洁准确的标题

📰 正文#

📰 正文