3 posts tagged with "release"

View All Tags

UltraRAG 3.0：告别黑盒，推理逻辑全透明

January 23, 2026 · 6 min read

Sen Mei

TsinghuaNLP

Haidong Xin

NEUIR

“验证算法原型只需一周，构建可用系统却耗时数月。” 这句看似调侃的“吐槽”，却是每一位算法工程师不得不面对的真实困境。

今天，清华大学 THUNLP 实验室、东北大学 NEUIR 实验室、OpenBMB 、面壁智能与 AI9Stars 联合发布 UltraRAG 3.0 ，针对上述痛点，为科研工作者与开发者打造更懂开发者的技术框架，具备 3 大核心优势：

从逻辑到原型的一键跨越，让算法工程师回归“算法”：提供“所见即所得”的 Pipeline 构建器，自动接管繁琐的界面封装。只需专注于逻辑编排，即可让静态代码即刻变身为可交互的演示系统。
全链路白盒化，推理轨迹的“像素级”可视化：打造“透明化”的推理验证窗口，实时呈现模型在复杂长链条任务中的每一次循环、分支与决策细节。
内置智能开发助手，你的“交互式开发指南”：内嵌懂框架的 AI 助手，通过自然语言交互辅助生成 Pipeline 配置与优化 Prompt，大幅降低上手门槛。

逻辑即应用——从编排到交互的「零距离」体验

让算法的终点不再是冷冰冰的控制台日志。UltraRAG 3.0 通过自动化处理繁琐的界面封装与参数对接，确保在逻辑编排完成的一刻，便已同步生成了可交互的演示界面：

配置即应用：只需定义 Pipeline 的 YAML 配置文件，框架即可将其自动解析并转化为标准的交互式 Demo。
双模式构建器：为了平衡易用性与灵活性，我们打造了可视化与代码实时同步的构建引擎：
- 画布模式：通过 UI 组件，像搭积木一样直观组装 Loop（循环）、Branch（分支）等复杂逻辑。
- 代码模式：直接编辑 YAML 配置文件，画布视图实时渲染更新，满足开发者对参数微调的精准控制需求。
一键编译验证：构建完成后，点击顶部的 “Build” 按钮，系统自动执行逻辑自检与语法校验，并动态生成参数配置面板。参数就绪的瞬间，静态的算法逻辑即刻变身可交互的系统，真正实现“所写即所得，所得即所用”。

拒绝「黑盒」让复杂 RAG 的推理脉络清晰可见

随着 RAG 技术从简单的单次检索向多轮动态决策演进，推理链路往往长达上百个 Step。在缺乏中间态监控的情况下，调试过程就如同在迷雾中从头再来，错误定位全靠“猜”。

UltraRAG 3.0 重新定义了 Chat 界面——它不仅是用户交互的入口，更是 逻辑验证的窗口。我们深知，对于开发者而言，知道“结果是什么”远远不够，看清“结果怎么来的”才是优化的关键。

我们通过“Show Thinking”面板，对系统“思考”的全过程进行了像素级的实时可视化——从复杂的循环分支到具体的工具调用，所有中间状态均以结构化的形式流式呈现。即使是 DeepResearch 这样复杂的长流程任务，开发者也能实时掌握执行进度，让过程不再是漆黑的等待。当 Bad Case 出现时，开发者无需再后台翻找日志，只需在界面上直接比对检索切片与最终答案，快速判断问题是出在“数据层的噪声”还是“模型层的幻觉”，极大地缩短了优化迭代的周期。

这里选取了 AgentCPM-Report 工作流的两个典型场景来展示“白盒化”调试的实际效果：

解放定制开发的「框架桎梏」

想要尝试一个新的算法逻辑，往往需要深入框架底层，重写大量继承类。为了实现 10% 的核心算法创新，却不得不背负 90% 的框架学习成本。

UltraRAG 3.0 将整套开发文档与最佳实践内嵌到了框架自带的智能助手中。它或许无法像 Cursor 那样帮你写完整个项目，但它绝对是最懂 UltraRAG 的高效辅助工具。通过自然语言交互，它能帮你彻底抹平“阅读文档”与“编写配置”之间的认知阻力：

配置生成：你只管描述需求（例如：“我要一个带多路召回和重排序的流程”），助手即可自动生成标准的 Pipeline 结构草稿，只需微调即可直接使用。
Prompt 调优：助手能根据当前任务上下文，提供针对性的 Prompt 优化建议，快速适配特定业务场景。
辅助理解：看不懂某个参数或逻辑？无需跳转浏览器翻阅官网文档，直接提问即可获得开发建议与代码示例，让编码过程不再中断。

实战演示：它能帮你做什么

我们在此展示了四个真实的交互场景，看看它是如何将自然语言转化为“可执行逻辑”的：

1. 结构调整：一句话修改 Pipeline

User：“请帮我修改当前的 Pipeline，增加一个引用（Citation）功能模块，以便对生成内容进行事实核查。”

2. 场景适配：针对性优化 Prompt

User: “我需要针对法律场景优化当前的 Prompt。请调整提示词，使其生成的回答在该领域的术语使用和逻辑推演上更加专业和准确。”

3. 配置调整：轻松修改底层参数

User: “我要切换生成后端的配置。请将生成模型后端改为 OpenAI，模型名更改为 qwen3-32b，API 服务部署在端口 65503 上。”

4. 自由调优：从概念到实现的捷径

User: “我想参考这篇论文：https://arxiv.org/pdf/2410.08821 (DeepNote)，来重新设计我的 RAG 流程。请分析文章中的核心思想，并帮我搭建一套类似的 Pipeline 架构。”

UltraRAG 2.1：纵深知识接入，横跨多模态支持

November 11, 2025 · 6 min read

Sen Mei

TsinghuaNLP

Haidong Xin

NEUIR

在研究者构建知识库、搭建实验系统、评估实验结果的过程中，总会遇到相似的挑战：如何在一个统一框架中实现多模态检索与生成？如何高效接入多源知识？又如何让复杂的 RAG 实验更易搭建、更易复现？

UltraRAG 2.1 在这些科研挑战的背景下，进行了面向实际研究需求的全面升级。本次更新围绕 原生多模态支持、知识接入与语料构建自动化、统一构建与评估的 RAG 工作流 三大方向带来了核心增强：

原生多模态支持：统一 Retriever、Generation 与 Evaluation 模块，全面支持多模态检索与生成；新增 VisRAG Pipeline，实现从本地 PDF 建库到多模态检索与生成的完整闭环。
知识接入与语料构建自动化：支持多格式文档解析与分块建库，无缝集成 MinerU，轻松构建个人化知识库。
统一构建与评估的 RAG 工作流：适配多种检索与生成推理引擎，提供标准化的评估体系，支持全链路可视化分析，实现从模型调用到结果验证的统一流程。

原生多模态支持

过去，多模态 RAG 往往需要依赖多套独立工具：文本任务与视觉任务分属不同流程，研究者需在特征提取、检索、生成和评估工具间来回切换，接口不统一、复现困难。

UltraRAG 2.1 对多模态 RAG 流程进行了系统化整合。所有核心 Server——Retriever、Generation 与 Evaluation——均已原生支持多模态任务，可灵活接入各种视觉、文本、或跨模态模型。研究者可在统一框架内自由编排属于自己的多模态 pipeline，无论是文档问答、图文检索，还是跨模态生成，都能以最小代价实现端到端联通。此外，框架内置的 Benchmark 覆盖视觉问答等多种任务，并提供统一的评估体系，方便研究者快速开展和对比多模态实验。

在此基础上，UltraRAG 2.1 引入 VisRAG Pipeline，实现从本地 PDF 建库到多模态检索与生成的完整闭环。该功能基于论文《VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents》的研究成果，论文提出了一个面向多模态文档的视觉增强检索生成框架，通过将文档图像信息（如图表、公式、版面结构）与文本内容联合建模，显著提升了模型在复杂科学文档中的内容理解与问答能力。UltraRAG 将这一方法集成，使研究者能够直接在真实 PDF 文档场景中复现 VisRAG 的实验过程，并进一步扩展多模态检索生成的研究与应用。

知识接入与语料构建自动化

在 RAG 开发过程中，面对不同来源的资料，开发者需要反复解析、清洗、分块。结果是，RAG 的构建过程往往被琐碎的工程细节拖慢，科研创新的空间反而被压缩。

UltraRAG 2.1 的 Corpus Server 让这一切变得简单。用户无需编写复杂脚本，就能一次性导入来自不同来源的语料——无论是 word 文档还是电子书与网页存档，都能被自动解析为统一的文本格式。在 PDF 解析方面，UltraRAG 无缝集成 MinerU，能够精确识别复杂版面与多栏结构，实现高保真文本还原。对于图文混排文件，还支持将 PDF 按页转换为图像，让视觉布局也能成为知识的一部分。在分块策略上，Corpus Server 提供了多粒度选择：支持词元级、句子级与自定义规则，既能精细控制语义边界，又能自然适配 Markdown 等结构化文本。

UltraRAG 2.1 图示 1

通过这一整套自动化流程，Corpus Server 将语料导入、解析与分块过程模块化，减少了手工脚本与格式适配工作，使知识库构建可以直接融入 RAG pipeline 的标准化流程中。

统一构建与评估的 RAG 工作流

“切块、索引、检索、生成、评估，每一步都要用不同的脚本，太繁琐了！” “每改一次参数、换一个模型，是否又要重搭整条 pipeline？” “当实验终于跑通后，评估结果又该怎样保持一致与可比？”

这些问题几乎是每个 RAG 研究者都经历过的烦恼。现有框架对检索、模型接入、评估的支持往往零散且不兼容，研究者不得不在不同工具之间反复切换，每一次修改都可能引发整条实验链路的重建。UltraRAG 2.1 的目标，就是让复杂的流程重新变得清晰而统一。

在检索层面，框架支持稀疏、稠密、混合与多模态检索，并兼容 Infinity、Sentence-Transformers、OpenAI 等多种后端引擎，研究者可以自由组合检索策略与模型，实现灵活的 pipeline 设计。在模型生成部分，UltraRAG 2.1 同时支持 vLLM 离线推理与 Hugging Face 本地调试，并保持与 OpenAI 接口完全兼容，使模型切换与部署无需修改代码。在评估环节，UltraRAG 构建了统一的 Evaluation Server，既能对生成结果计算 ACC、ROUGE 等指标，又支持对检索结果进行 TREC 评估与显著性分析。配合可视化的 Case Study UI，研究者可以直观地比较不同模型与策略的表现，让“调试”真正变成“理解”。

此外，UltraRAG 通过 YAML 配置驱动的工作流机制，实现了从数据导入到检索、生成与评估的全链路串联，研究者只需编写少量配置文件，即可快速定义和复现实验流程。

UltraRAG 2.1 图示 2

UltraRAG 2.0：代码极简化，创新最大化

August 28, 2025 · 5 min read

Sen Mei

TsinghuaNLP

Haidong Xin

NEUIR

Chunyi Peng

NEUIR

检索增强生成系统（RAG）正从早期“检索+生成”的简单拼接，走向融合自适应知识组织、多轮推理、动态检索的复杂知识系统（典型代表如 DeepResearch、Search-o1）。但这种复杂度的提升，使开发者在方法复现、快速迭代新想法时，面临着高昂的工程实现成本。

为了解决这一痛点，清华大学 THUNLP 实验室、东北大学 NEUIR 实验室、OpenBMB 与 AI9Stars 联合推出 UltraRAG 2.0 （UR-2.0）—— 首个基于 Model Context Protocol (MCP) 架构设计的 RAG 框架。这一设计让科研人员只需编写 YAML 文件，就可以直接声明串行、循环、条件分支等复杂逻辑，从而以极低的代码量快速实现多阶段推理系统。

UltraRAG 2.0 亮点一览：

🧩 组件化封装：将 RAG 的核心组件封装为标准化的独立 MCP Server；
🔌 灵活调用与扩展：提供函数级 Tool 接口，支持功能的灵活调用与扩展；
🪄 轻量流程编排：借助 MCP Client，建立自上而下的简洁化链路搭建；与传统框架相比，UltraRAG 2.0 显著降低了复杂 RAG 系统的技术门槛与学习成本，让研究者能够将更多精力投入到实验设计与算法创新上，而不是陷入冗长的工程实现。

化繁为简——仅 5% 代码实现低门槛复现

「简」的价值，在实践中尤为直观。以 IRCoT（https://arxiv.org/abs/2212.10509）这一经典方法为例，它依赖基于模型生成的 CoT 进行多轮检索直至产出最终答案，整体流程相当复杂。

在官方实现中，仅 Pipeline 部分就需要近 900 行手写逻辑；即便使用其他 RAG 框架，也仍需超过 110 行代码。相比之下，UltraRAG 2.0 只需约 50 行代码即可完成同等功能。更值得强调的是，其中约一半还是用于编排的 Yaml 伪代码，这大幅降低了开发门槛与实现成本。

简而不凡——数十行代码实现高性能RAG系统

对 UltraRAG 2.0 而言，「简」并不意味着功能受限。借助 MCP 架构与灵活的 YAML 流程定义，UltraRAG 2.0 为科研人员提供了一个高性能、可扩展的实验平台。研究者可以在极短时间内搭建出类似 DeepResearch 的多阶段推理系统，支持 动态检索、条件判断、多轮交互 等高级能力。

在示例中，我们将 Retriever、Generation、Router 等模块通过 YAML 串联，构建了一个同时具备循环与条件分支的推理流程，实现了 Plan 生成 → 知识整理 → 子问题生成 等关键步骤，而这一切仅需 不到 100 行代码。

UltraRAG 2.0 图示 1

在性能上，该系统在复杂多跳问题上，相较 Vanilla RAG 性能提升约 12%，充分验证了 UltraRAG 2.0 在快速构建复杂推理系统方面的潜力。

UltraRAG 2.0 图示 2

UltraRAG 2.0 让复杂推理系统的构建真正做到低代码、高性能、可落地。用户不仅能在科研任务中获得性能提升，也能够在行业应用中快速落地，例如智能客服、教育辅导、医疗问答等典型场景，输出更可靠的知识增强答案。

MCP 架构与原生流程控制

在不同的 RAG 系统中，检索、生成等核心能力在功能上具有高度相似性，但由于开发者实现策略各异，模块之间往往缺乏统一接口，难以跨项目复用。Model Context Protocol (MCP) 作为一种开放协议，规范了为大型语言模型（LLMs）提供上下文的标准方式，并采用 Client–Server 架构，使得遵循该协议开发的 Server 组件可以在不同系统间无缝复用。

受此启发，UltraRAG 2.0 基于 MCP 架构，将 RAG 系统中的检索、生成、评测等核心功能抽象并封装为相互独立的 MCP Server，并通过标准化的函数级 Tool 接口实现调用。这一设计既保证了模块功能扩展的灵活性，又允许新模块以“热插拔”的方式接入，无需对全局代码进行侵入式修改。在科研场景中，这种架构让研究者能够以极低的代码量快速适配新的模型或算法，同时保持整体系统的稳定性与一致性。

UltraRAG 2.0 图示 3

复杂 RAG 推理框架的开发具有显著挑战，而 UltraRAG 2.0 之所以能够在低代码条件下支持复杂系统的构建，核心在于其底层对多结构 Pipeline 流程控制的原生支持。无论是串行、循环还是条件分支，所有控制逻辑均可在 YAML 层完成定义与调度，覆盖复杂推理任务所需的多种流程表达方式。在实际运行中，推理流程的调度由内置 Client 执行，其逻辑完全由用户编写的外部 Pipeline YAML 脚本描述，从而实现与底层实现的解耦。开发者可以像使用编程语言关键字一样调用 loop、step 等指令，以声明式方式快速构建多阶段推理流程。

通过将 MCP 架构与原生流程控制深度融合，UltraRAG 2.0 让复杂 RAG 系统的搭建像“编排流程”一样自然高效。此外，框架内置 17 个主流 benchmark 任务与多种高质量 baseline，配合统一的评测体系与知识库支持，进一步提升了系统开发的效率与实验的可复现性。

逻辑即应用——从编排到交互的「零距离」体验​

拒绝「黑盒」让复杂 RAG 的推理脉络清晰可见​

解放定制开发的「框架桎梏」​

实战演示：它能帮你做什么​

原生多模态支持​

知识接入与语料构建自动化​

统一构建与评估的 RAG 工作流​

化繁为简——仅 5% 代码实现低门槛复现​

简而不凡——数十行代码实现高性能RAG系统​

MCP 架构与原生流程控制​

逻辑即应用——从编排到交互的「零距离」体验

拒绝「黑盒」让复杂 RAG 的推理脉络清晰可见

解放定制开发的「框架桎梏」

实战演示：它能帮你做什么

原生多模态支持

知识接入与语料构建自动化

统一构建与评估的 RAG 工作流

化繁为简——仅 5% 代码实现低门槛复现

简而不凡——数十行代码实现高性能RAG系统

MCP 架构与原生流程控制