Skip to main content

3 posts tagged with "release"

View All Tags

UltraRAG 3.0:告别黑盒,推理逻辑全透明

· 6 min read
Sen Mei
TsinghuaNLP

“验证算法原型只需一周,构建可用系统却耗时数月。” 这句看似调侃的“吐槽”,却是每一位算法工程师不得不面对的真实困境。

今天,清华大学 THUNLP 实验室、东北大学 NEUIR 实验室、OpenBMB 、面壁智能与 AI9Stars 联合发布 UltraRAG 3.0 ,针对上述痛点,为科研工作者与开发者打造更懂开发者的技术框架,具备 3 大核心优势:

  • 从逻辑到原型的一键跨越,让算法工程师回归“算法”:提供“所见即所得”的 Pipeline 构建器,自动接管繁琐的界面封装。只需专注于逻辑编排,即可让静态代码即刻变身为可交互的演示系统。

  • 全链路白盒化,推理轨迹的“像素级”可视化: 打造“透明化”的推理验证窗口,实时呈现模型在复杂长链条任务中的每一次循环、分支与决策细节。

  • 内置智能开发助手,你的“交互式开发指南”: 内嵌懂框架的 AI 助手,通过自然语言交互辅助生成 Pipeline 配置与优化 Prompt,大幅降低上手门槛。

逻辑即应用——从编排到交互的「零距离」体验

让算法的终点不再是冷冰冰的控制台日志。UltraRAG 3.0 通过自动化处理繁琐的界面封装与参数对接,确保在逻辑编排完成的一刻,便已同步生成了可交互的演示界面:

  • 配置即应用:只需定义 Pipeline 的 YAML 配置文件,框架即可将其自动解析并转化为标准的交互式 Demo。
  • 双模式构建器:为了平衡易用性与灵活性,我们打造了可视化与代码实时同步的构建引擎:
    • 画布模式:通过 UI 组件,像搭积木一样直观组装 Loop(循环)、Branch(分支)等复杂逻辑。
    • 代码模式:直接编辑 YAML 配置文件,画布视图实时渲染更新,满足开发者对参数微调的精准控制需求。
  • 一键编译验证:构建完成后,点击顶部的 “Build” 按钮,系统自动执行逻辑自检与语法校验,并动态生成参数配置面板。参数就绪的瞬间,静态的算法逻辑即刻变身可交互的系统,真正实现“所写即所得,所得即所用”。

拒绝「黑盒」让复杂 RAG 的推理脉络清晰可见

随着 RAG 技术从简单的单次检索向多轮动态决策演进,推理链路往往长达上百个 Step。在缺乏中间态监控的情况下,调试过程就如同在迷雾中从头再来,错误定位全靠“猜”。

UltraRAG 3.0 重新定义了 Chat 界面——它不仅是用户交互的入口,更是 逻辑验证的窗口。我们深知,对于开发者而言,知道“结果是什么”远远不够,看清“结果怎么来的”才是优化的关键。

我们通过“Show Thinking”面板,对系统“思考”的全过程进行了像素级的实时可视化——从复杂的循环分支到具体的工具调用,所有中间状态均以结构化的形式流式呈现。即使是 DeepResearch 这样复杂的长流程任务,开发者也能实时掌握执行进度,让过程不再是漆黑的等待。当 Bad Case 出现时,开发者无需再后台翻找日志,只需在界面上直接比对检索切片与最终答案,快速判断问题是出在“数据层的噪声”还是“模型层的幻觉”,极大地缩短了优化迭代的周期。

这里选取了 AgentCPM-Report 工作流的两个典型场景来展示“白盒化”调试的实际效果:

解放定制开发的「框架桎梏」

想要尝试一个新的算法逻辑,往往需要深入框架底层,重写大量继承类。为了实现 10% 的核心算法创新,却不得不背负 90% 的框架学习成本。

UltraRAG 3.0 将整套开发文档与最佳实践内嵌到了框架自带的智能助手中。它或许无法像 Cursor 那样帮你写完整个项目,但它绝对是最懂 UltraRAG 的高效辅助工具。通过自然语言交互,它能帮你彻底抹平“阅读文档”与“编写配置”之间的认知阻力:

  • 配置生成:你只管描述需求(例如:“我要一个带多路召回和重排序的流程”),助手即可自动生成标准的 Pipeline 结构草稿,只需微调即可直接使用。
  • Prompt 调优:助手能根据当前任务上下文,提供针对性的 Prompt 优化建议,快速适配特定业务场景。
  • 辅助理解:看不懂某个参数或逻辑?无需跳转浏览器翻阅官网文档,直接提问即可获得开发建议与代码示例,让编码过程不再中断。

实战演示:它能帮你做什么

我们在此展示了四个真实的交互场景,看看它是如何将自然语言转化为“可执行逻辑”的:

1. 结构调整:一句话修改 Pipeline

User:“请帮我修改当前的 Pipeline,增加一个引用(Citation)功能模块,以便对生成内容进行事实核查。”

2. 场景适配:针对性优化 Prompt

User: “我需要针对 法律场景 优化当前的 Prompt。请调整提示词,使其生成的回答在该领域的术语使用和逻辑推演上更加专业和准确。”

3. 配置调整:轻松修改底层参数

User: “我要切换生成后端的配置。请将生成模型后端改为 OpenAI,模型名更改为 qwen3-32b,API 服务部署在端口 65503 上。”

4. 自由调优:从概念到实现的捷径

User: “我想参考这篇论文:https://arxiv.org/pdf/2410.08821 (DeepNote),来重新设计我的 RAG 流程。请分析文章中的核心思想,并帮我搭建一套类似的 Pipeline 架构。”

UltraRAG 2.1:纵深知识接入,横跨多模态支持

· 6 min read
Sen Mei
TsinghuaNLP

在研究者构建知识库、搭建实验系统、评估实验结果的过程中,总会遇到相似的挑战:如何在一个统一框架中实现多模态检索与生成?如何高效接入多源知识?又如何让复杂的 RAG 实验更易搭建、更易复现?

UltraRAG 2.1 在这些科研挑战的背景下,进行了面向实际研究需求的全面升级。本次更新围绕 原生多模态支持、知识接入与语料构建自动化、统一构建与评估的 RAG 工作流 三大方向带来了核心增强:

  • 原生多模态支持:统一 Retriever、Generation 与 Evaluation 模块,全面支持多模态检索与生成;新增 VisRAG Pipeline,实现从本地 PDF 建库到多模态检索与生成的完整闭环。
  • 知识接入与语料构建自动化:支持多格式文档解析与分块建库,无缝集成 MinerU,轻松构建个人化知识库。
  • 统一构建与评估的 RAG 工作流:适配多种检索与生成推理引擎,提供标准化的评估体系,支持全链路可视化分析,实现从模型调用到结果验证的统一流程。

原生多模态支持

过去,多模态 RAG 往往需要依赖多套独立工具:文本任务与视觉任务分属不同流程,研究者需在特征提取、检索、生成和评估工具间来回切换,接口不统一、复现困难。

UltraRAG 2.1 对多模态 RAG 流程进行了系统化整合。所有核心 Server——Retriever、Generation 与 Evaluation——均已原生支持多模态任务,可灵活接入各种视觉、文本、或跨模态模型。研究者可在统一框架内自由编排属于自己的多模态 pipeline,无论是文档问答、图文检索,还是跨模态生成,都能以最小代价实现端到端联通。此外,框架内置的 Benchmark 覆盖视觉问答等多种任务,并提供统一的评估体系,方便研究者快速开展和对比多模态实验。

在此基础上,UltraRAG 2.1 引入 VisRAG Pipeline,实现从本地 PDF 建库到多模态检索与生成的完整闭环。该功能基于论文《VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents》的研究成果,论文提出了一个面向多模态文档的视觉增强检索生成框架,通过将文档图像信息(如图表、公式、版面结构)与文本内容联合建模,显著提升了模型在复杂科学文档中的内容理解与问答能力。UltraRAG 将这一方法集成,使研究者能够直接在真实 PDF 文档场景中复现 VisRAG 的实验过程,并进一步扩展多模态检索生成的研究与应用。

知识接入与语料构建自动化

在 RAG 开发过程中,面对不同来源的资料,开发者需要反复解析、清洗、分块。结果是,RAG 的构建过程往往被琐碎的工程细节拖慢,科研创新的空间反而被压缩。

UltraRAG 2.1Corpus Server 让这一切变得简单。用户无需编写复杂脚本,就能一次性导入来自不同来源的语料——无论是 word 文档还是电子书与网页存档,都能被自动解析为统一的文本格式。在 PDF 解析方面,UltraRAG 无缝集成 MinerU,能够精确识别复杂版面与多栏结构,实现高保真文本还原。对于图文混排文件,还支持将 PDF 按页转换为图像,让视觉布局也能成为知识的一部分。在分块策略上,Corpus Server 提供了多粒度选择:支持词元级、句子级与自定义规则,既能精细控制语义边界,又能自然适配 Markdown 等结构化文本。

UltraRAG 2.1 图示 1

通过这一整套自动化流程,Corpus Server 将语料导入、解析与分块过程模块化,减少了手工脚本与格式适配工作,使知识库构建可以直接融入 RAG pipeline 的标准化流程中。

统一构建与评估的 RAG 工作流

“切块、索引、检索、生成、评估,每一步都要用不同的脚本,太繁琐了!” “每改一次参数、换一个模型,是否又要重搭整条 pipeline?” “当实验终于跑通后,评估结果又该怎样保持一致与可比?”

这些问题几乎是每个 RAG 研究者都经历过的烦恼。现有框架对检索、模型接入、评估的支持往往零散且不兼容,研究者不得不在不同工具之间反复切换,每一次修改都可能引发整条实验链路的重建。UltraRAG 2.1 的目标,就是让复杂的流程重新变得清晰而统一。

在检索层面,框架支持稀疏、稠密、混合与多模态检索,并兼容 Infinity、Sentence-Transformers、OpenAI 等多种后端引擎,研究者可以自由组合检索策略与模型,实现灵活的 pipeline 设计。在模型生成部分,UltraRAG 2.1 同时支持 vLLM 离线推理 与 Hugging Face 本地调试,并保持与 OpenAI 接口 完全兼容,使模型切换与部署无需修改代码。在评估环节,UltraRAG 构建了统一的 Evaluation Server,既能对生成结果计算 ACC、ROUGE 等指标,又支持对检索结果进行 TREC 评估与显著性分析。配合可视化的 Case Study UI,研究者可以直观地比较不同模型与策略的表现,让“调试”真正变成“理解”。

此外,UltraRAG 通过 YAML 配置驱动的工作流机制,实现了从数据导入到检索、生成与评估的全链路串联,研究者只需编写少量配置文件,即可快速定义和复现实验流程。

UltraRAG 2.1 图示 2

UltraRAG 2.0:代码极简化,创新最大化

· 5 min read
Sen Mei
TsinghuaNLP
Chunyi Peng
Chunyi Peng
NEUIR

检索增强生成系统(RAG)正从早期“检索+生成”的简单拼接,走向融合自适应知识组织、多轮推理、动态检索的复杂知识系统(典型代表如 DeepResearch、Search-o1)。但这种复杂度的提升,使开发者在方法复现、快速迭代新想法时,面临着高昂的工程实现成本。

为了解决这一痛点,清华大学 THUNLP 实验室、东北大学 NEUIR 实验室、OpenBMB 与 AI9Stars 联合推出 UltraRAG 2.0 (UR-2.0)—— 首个基于 Model Context Protocol (MCP) 架构设计的 RAG 框架。这一设计让科研人员只需编写 YAML 文件,就可以直接声明串行、循环、条件分支等复杂逻辑,从而以极低的代码量快速实现多阶段推理系统。

UltraRAG 2.0 亮点一览:

  • 🧩 组件化封装:将 RAG 的核心组件封装为标准化的独立 MCP Server;

  • 🔌 灵活调用与扩展:提供函数级 Tool 接口,支持功能的灵活调用与扩展;

  • 🪄 轻量流程编排:借助 MCP Client,建立自上而下的简洁化链路搭建;与传统框架相比,UltraRAG 2.0 显著降低了复杂 RAG 系统的技术门槛与学习成本,让研究者能够将更多精力投入到实验设计与算法创新上,而不是陷入冗长的工程实现。

化繁为简——仅 5% 代码实现低门槛复现

「简」的价值,在实践中尤为直观。以 IRCoT(https://arxiv.org/abs/2212.10509)这一经典方法为例,它依赖基于模型生成的 CoT 进行多轮检索直至产出最终答案,整体流程相当复杂。

在官方实现中,仅 Pipeline 部分就需要近 900 行手写逻辑;即便使用其他 RAG 框架,也仍需超过 110 行代码。相比之下,UltraRAG 2.0 只需约 50 行代码即可完成同等功能。更值得强调的是,其中约一半还是用于编排的 Yaml 伪代码,这大幅降低了开发门槛与实现成本。

简而不凡——数十行代码实现高性能RAG系统

对 UltraRAG 2.0 而言,「简」并不意味着功能受限。借助 MCP 架构与灵活的 YAML 流程定义,UltraRAG 2.0 为科研人员提供了一个高性能、可扩展的实验平台。研究者可以在极短时间内搭建出类似 DeepResearch 的多阶段推理系统,支持 动态检索、条件判断、多轮交互 等高级能力。

在示例中,我们将 Retriever、Generation、Router 等模块通过 YAML 串联,构建了一个同时具备循环与条件分支的推理流程,实现了 Plan 生成 → 知识整理 → 子问题生成 等关键步骤,而这一切仅需 不到 100 行代码

UltraRAG 2.0 图示 1

在性能上,该系统在复杂多跳问题上,相较 Vanilla RAG 性能提升约 12%,充分验证了 UltraRAG 2.0 在快速构建复杂推理系统方面的潜力。

UltraRAG 2.0 图示 2

UltraRAG 2.0 让复杂推理系统的构建真正做到 低代码、高性能、可落地。用户不仅能在科研任务中获得性能提升,也能够在行业应用中快速落地,例如智能客服、教育辅导、医疗问答等典型场景,输出更可靠的知识增强答案。

MCP 架构与原生流程控制

在不同的 RAG 系统中,检索、生成等核心能力在功能上具有高度相似性,但由于开发者实现策略各异,模块之间往往缺乏统一接口,难以跨项目复用。Model Context Protocol (MCP) 作为一种开放协议,规范了为大型语言模型(LLMs)提供上下文的标准方式,并采用 Client–Server 架构,使得遵循该协议开发的 Server 组件可以在不同系统间无缝复用。

受此启发,UltraRAG 2.0 基于 MCP 架构,将 RAG 系统中的检索、生成、评测等核心功能抽象并封装为相互独立的 MCP Server,并通过标准化的函数级 Tool 接口实现调用。这一设计既保证了模块功能扩展的灵活性,又允许新模块以“热插拔”的方式接入,无需对全局代码进行侵入式修改。在科研场景中,这种架构让研究者能够以极低的代码量快速适配新的模型或算法,同时保持整体系统的稳定性与一致性。

UltraRAG 2.0 图示 3

复杂 RAG 推理框架的开发具有显著挑战,而 UltraRAG 2.0 之所以能够在低代码条件下支持复杂系统的构建,核心在于其底层对多结构 Pipeline 流程控制的原生支持。无论是串行、循环还是条件分支,所有控制逻辑均可在 YAML 层完成定义与调度,覆盖复杂推理任务所需的多种流程表达方式。在实际运行中,推理流程的调度由内置 Client 执行,其逻辑完全由用户编写的外部 Pipeline YAML 脚本描述,从而实现与底层实现的解耦。开发者可以像使用编程语言关键字一样调用 loop、step 等指令,以声明式方式快速构建多阶段推理流程。

通过将 MCP 架构 与 原生流程控制深度融合,UltraRAG 2.0 让复杂 RAG 系统的搭建像“编排流程”一样自然高效。此外,框架内置 17 个主流 benchmark 任务与多种高质量 baseline,配合统一的评测体系与知识库支持,进一步提升了系统开发的效率与实验的可复现性。