Co-STORM：利用AI模拟多个“专家”围绕主题讨论 然后根据讨论生成高质量文章

📰 正文

STORM（Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking）是一个创新的写作系统，由斯坦福大学研究人员开发，旨在利用大语言模型（LLMs）自动化从头开始编写具有维基百科页面般的广度和深度的有根据和有组织的长篇文章。

该系统旨在模拟文章写作前的研究过程，通过发掘话题研究中的多样视角、模拟具有不同视角的作者向话题专家提出问题的对话，以及基于这些对话整理收集到的信息来创建文章大纲。

最近他们升级了STORM，推出了新的Co-STORM

Co-STORM 在 STORM 的基础上进行重大升级，主要解决了 STORM 静态、用户交互不足、视角单一的问题。为复杂信息探索提供了多视角、动态交互和高效组织的新模式。

Co-STORM 的改进：

工作方式的不同

STORM：

就像一个“写作助手”，你告诉它一个主题，它就根据网上的信息帮你写一篇类似维基百科的文章。

写完就结束了，用户只能看结果，没法干预或了解文章是怎么写出来的。

Co-STORM：

更像是一个“头脑风暴会”，模拟多个“专家”围绕主题讨论。

专家讨论过程中，用户可以旁听，也可以插话提问，让系统探索你关心的内容。

最后，它会帮你整理讨论结果，生成一份详细的总结报告，还会告诉你每段信息从哪来的。

信息探索的不同

STORM：

只回答你明确提出来的问题，比如“这个主题是什么？”

如果你不知道怎么提问，它就帮不上忙。

Co-STORM：

不仅回答你提出的问题，还会帮你发现“你不知道你不知道”的内容。

比如专家会提出新的问题，让讨论更深入，甚至帮你发现可能忽略的重要信息。

改进的交互方式

STORM：

你是一个“旁观者”，只能看生成的报告。

信息量可能不够全面，报告的组织方式是固定的。

Co-STORM：

你是一个“参与者”，可以插话提问，随时调整讨论方向。

系统会用“心智图”（类似一棵信息树）把讨论内容可视化，你能清楚看到每个信息的来源和逻辑。

结果的不同

STORM：

给你一篇长文章，信息来源和组织方式是固定的，你只能接受。

有时文章可能不够深，或者漏掉了一些重要的信息。

Co-STORM：

给你一个动态的心智图和一份引用丰富的报告。

心智图会展示所有讨论的内容，你还能看到信息是怎么一步步找到的。

生成的报告信息更全面、更有深度，还能回答你没想到的问题。

总结：Co-STORM 改进了什么？ 1.

互动性更强：用户可以参与讨论，而不是只能看结果。

信息更全面：模拟多个“专家”讨论，多角度挖掘信息。

发现更多未知：帮助你找到自己没想到的问题和信息。

信息更直观：用心智图可视化内容，让复杂信息一目了然。

结果更可信：报告会标明信息来源，引用权威资料。

Co-STORM 是什么？

Co-STORM 是一种创新的信息探索和学习系统，其核心特点是通过模拟多代理协作对话，帮助用户发现和学习未知的信息（“未知的未知”）。

设计亮点： 1.

支持探索未知的未知：

不仅回答用户明确问题，还主动发现相关性强但用户未意识到的潜在问题。

高效的信息组织：

动态心智图将复杂信息流转化为直观的层次结构。

用户友好：

灵活的交互模式满足用户的多样化需求。

Co-STORM 的工作机制如下： 1.

多代理协作对话：系统引入多个虚拟“专家”和“主持人”，以多视角的方式就某个主题进行对话和探讨。

动态心智图：实时构建和更新心智图，将讨论中收集的信息组织起来，方便用户跟踪和理解信息。

用户参与：用户可以旁听专家讨论，也可以参与其中，提出问题或调整讨论方向。

生成总结报告：根据心智图内容生成一份引用丰富的报告，帮助用户全面掌握信息。

Co-STORM 解决了什么问题？

Co-STORM 解决了传统搜索引擎和问答系统难以满足的以下问题：

探索“未知的未知”

问题：用户在传统搜索引擎或问答系统中需要明确提问，而对于尚不了解的信息（“未知的未知”），用户往往难以提问，导致潜在重要信息被忽略。

解决：Co-STORM 模拟专家对话，由代理提出问题和探讨，帮助用户发现自己尚未意识到的有用信息。

认知负担与信息过载

问题：传统搜索结果通常包含大量无关或重复的信息，用户需要花费大量时间和精力筛选和组织信息。

解决：Co-STORM 动态整理讨论内容，生成心智图和报告，减少用户的认知负担并提高信息获取效率。

缺乏多视角与动态探索

问题：许多系统仅提供单一答案或静态报告，无法动态调整信息探索方向，也缺乏多视角分析。

解决：Co-STORM 通过多代理对话引入多视角分析，并允许用户动态调整探索方向，提供更全面和深入的信息。

信息质量与可信性

问题：生成式系统可能提供不准确或无引用支持的信息。

解决：Co-STORM 的专家角色引用可靠信息来源，并在生成报告时提供明确的出处，增强信息的可信性。

Co-STORM 的主要功能

Co-STORM 是一个多代理协作信息探索系统，具备以下主要功能：

多代理协作对话

功能描述：

模拟多位“专家”与“主持人”围绕主题进行讨论，帮助用户探索信息。

每个专家具备不同的知识背景（如技术、市场、学术等），从多个视角生成问题和解答。

主持人负责引导讨论，提出新的问题或调整方向，避免信息重复或讨论陷入单一视角。

应用场景：

用户希望从不同角度了解复杂主题（如科学研究、市场趋势）。

用户对所研究的领域缺乏明确问题。

动态心智图构建

功能描述：

实时组织对话内容，生成一个层次分明的动态心智图，类似思维导图。

心智图结构展示讨论主题、子主题及其相关信息，帮助用户直观跟踪和理解内容。

可作为报告生成的基础。

应用场景：

用户需要整理和分类信息，以便快速掌握复杂主题。

用户希望在探索过程中动态调整重点。

用户参与与定制化互动

功能描述：

用户可以观察代理之间的讨论，也可以插入问题或调整讨论方向。

用户的参与会动态影响对话内容和心智图的生成。

应用场景：

用户希望保持一定的控制权，主动提问或干预讨论。

用户需要深入特定主题，但又想保持对其他相关领域的探索。

自动生成高质量总结报告

功能描述：

系统根据动态心智图生成一份引用丰富的总结报告。

报告涵盖讨论中提到的所有关键信息，并附有可信的引用来源。

应用场景：

用户需要一份全面、可信的总结用于学习或决策。

适用于需要生成学术报告、市场分析或技术评估的场景。

支持探索“未知的未知”

功能描述：

系统不仅回答用户明确的问题，还主动提出相关性强但用户未意识到的重要问题。

通过模拟多角度讨论和引导，帮助用户发现潜在的有价值信息。

应用场景：

用户对某领域的认知较少，无法提出明确问题。

需要启发性探索，例如学术研究、创意生成或战略分析。

信息质量与可信性保障

功能描述：

专家角色在回答问题时引用可靠的信息来源（如科学文献、可信网站）。

所有生成内容均有明确出处，确保信息准确性和可信性。

应用场景：

用户需要高质量的、经过验证的信息以支持决策或学习。

Co-STORM 系统设计详细解析

Co-STORM 的系统设计以多代理协作对话、动态信息组织和用户互动为核心，旨在帮助用户在复杂信息环境中探索未知领域。

系统架构

1.1 多代理协作框架

设计理念：

通过模拟多位“专家”与“主持人”的交互式对话，实现多视角的信息探索。

专家角色代表不同领域或背景，提出问题、提供答案，拓宽信息覆盖范围。

主持人角色引导对话方向，注入新的视角，避免重复和局限性。

架构组成： 1.

专家代理：

每个代理聚焦于特定领域或视角，例如技术、经济、健康等。

专家通过动态生成问题和答案，引用外部信息来源。

主持人代理：

主持人负责引导对话，识别未被讨论的主题，并提出新问题。

在对话偏离主题或重复时，重新调整方向。

用户代理：

用户可通过插入问题或观点参与对话，也可选择旁观模式。

1.2 动态心智图

设计理念：

动态构建和更新心智图，以树状结构组织讨论中生成的信息，帮助用户直观跟踪和理解。

特点与操作： 1.

信息插入：

基于语义相似性分析，将新信息插入最相关的节点。

确保插入的节点层级逻辑合理，与现有心智图一致。

信息重组：

当节点包含的信息过多时，系统会自动生成子主题并重新分层。

避免信息冗余，提高可读性。

用户可视化：

用户可以通过界面实时查看心智图，追踪讨论的进展和结构。

1.3 用户交互模式

设计理念：

提供用户控制的灵活性，支持观察模式和主动参与模式。

通过人机协作实现更高的探索效率和信息相关性。

交互特点： 1.

观察模式：

用户可选择旁观专家和主持人的对话，从中获取信息。

参与模式：

用户可插入问题或观点，实时影响对话内容和方向。

用户的提问会动态更新心智图和后续讨论内容。

定制化控制：

用户可以调整讨论的深度和方向，例如专注于某个子主题。

系统功能模块

2.1 多代理对话模块

功能描述：

专家和主持人通过轮流发言，围绕用户指定主题进行深入探讨。

技术实现：

使用大型语言模型（如 GPT 系列）生成多样化问题和答案。

专家回答问题时引用可信信息来源，增强内容的准确性。

2.2 动态心智图模块

功能描述：

将讨论生成的信息结构化为动态心智图，帮助用户直观理解和管理信息。

技术实现：

使用语义相似性和语言模型对信息进行层次分类。

自动检测心智图中的信息冗余，并进行合并或分层优化。

2.3 用户交互模块

功能描述：

支持用户实时参与对话或完全旁观。

技术实现：

将用户的输入与专家对话历史无缝集成。

动态更新心智图，反映用户输入对讨论的影响。

2.4 自动报告生成模块

功能描述：

根据心智图生成一份引用丰富的长篇总结报告。

技术实现：

使用心智图的层次结构作为报告的大纲。

调用语言模型生成段落内容，并引用讨论中收集的信息来源。

系统工作流程

用户输入主题：

用户输入感兴趣的主题或问题，系统初始化对话。

专家与主持人讨论：

专家生成多视角问题与答案，主持人引导讨论方向。

动态更新心智图：

系统实时整理讨论生成的信息，动态构建心智图。

用户参与：

用户可插入问题或调整讨论方向，更新心智图和对话内容。

生成总结报告：

最终根据心智图内容生成全面的引用报告。

技术实现细节

4.1 大型语言模型

角色模拟：

每个专家和主持人基于语言模型，通过定制化提示（prompts）生成问题和答案。

语义分析：

使用嵌入技术（如 cosine similarity）判断信息相关性。

4.2 信息检索

数据来源：

通过搜索引擎或指定数据库（如维基百科）检索可信信息。

引用整合：

所有专家答案均包含引用，确保可信性和可验证性。

4.3 动态心智图生成

树状结构：

使用分层策略组织信息，根节点为主题，子节点为子主题。

动态操作：

自动插入或重组信息，保持图的结构清晰。

Co-STORM 实验与评估结果

Co-STORM 的实验与评估重点在于验证其在信息探索、知识发现和用户体验等方面的表现。研究通过自动评估和用户研究的结合，对系统进行全面的测试。以下是实验与评估的关键内容和结果：

实验方法

1.1 自动评估

数据集：

构建了名为 WildSeek 的数据集，包含从真实用户记录中收集的复杂信息探索任务。

数据覆盖多个领域（如科学、健康、文化等），包含用户的初始主题和目标。

对比基线：

RAG Chatbot：基于检索增强生成（Retrieval-Augmented Generation）的问答系统。

STORM + QA：使用 STORM 系统生成长篇报告，并允许用户提问。

评估指标：

报告质量：包括相关性（Relevance）、广度（Breadth）、深度（Depth）和新颖性（Novelty）。

对话质量：

提问轮次的质量：新颖性、意图对齐（Intent Alignment）和无重复性。

回答轮次的质量：一致性和用户参与度（Engagement）。

信息多样性：通过引用的独立信息源数量和语义多样性衡量。

1.2 用户研究

参与者：

20 名来自不同背景的志愿者随机分组，分别测试 Co-STORM、RAG Chatbot 和传统搜索引擎。

用户被要求完成复杂信息探索任务，并根据体验对系统进行评分。

评估维度：

系统在相关性、信息广度、深度、新颖性（Serendipity）方面的表现。

用户体验，包括所需认知努力、用户参与感、信息回声室问题的解决程度，以及整体体验。

实验结果

2.1 自动评估结果

报告质量改进：

Co-STORM 在所有报告质量指标上优于基线系统，尤其在广度（+0.29）、深度（+0.34）和新颖性（+0.55）方面显著提高。

信息多样性（引用的 URL 数）大幅提升，表明系统能够从更多来源收集丰富的信息。

对话质量改进：

Co-STORM 的提问和回答轮次在一致性和用户参与度方面得分最高。

主持人的引导角色显著提高了对话的新颖性和信息覆盖率。

2.2 用户评估结果

用户偏好：

70% 的用户偏好 Co-STORM 而非搜索引擎。

78% 的用户更喜欢 Co-STORM 相较于 RAG Chatbot。

用户认为 Co-STORM 能够更高效地发现潜在信息，同时减少认知负担。

用户反馈：

用户认为 Co-STORM 提供的心智图清晰易懂，能显著降低信息跟踪的难度。

“它能够发现我从未想到过的问题和信息，这是传统搜索工具无法做到的。”

详细发现

3.1 系统模块的贡献

移除多专家或主持人的消融实验表明，主持人角色对引导对话方向至关重要。

多专家设置提高了对话中信息的深度和广度。

3.2 动态心智图的作用

心智图被用户广泛认可，71% 的用户认为其准确反映了对话内容。

3.3 Co-STORM 的独特优势

信息发现能力：帮助用户探索“未知的未知”。

减少认知负担：动态心智图和总结报告使信息组织更加高效。

结论与未来方向

实验结论：

Co-STORM 显著提升了信息探索体验，尤其在信息覆盖广度、深度和新颖性方面表现突出。

用户偏好和自动评估结果一致，证明了系统的实用性与高效性。

未来改进方向： 1.

更好地适配用户的知识水平：为专家用户减少基础信息，为新手逐步引入概念。

支持多语言扩展：增加跨语言搜索与生成功能。

提高实时交互的效率，减少系统延迟。

GitHub：https://github.com/stanford-oval/storm

论文：https://www.arxiv.org/abs/2408.15232

在线体验：https://storm.genie.stanford.edu/

来源：Co-STORM：利用AI模拟多个“专家”围绕主题讨论然后根据讨论生成高质量文章

📰 正文#

📰 正文