滑铁卢大学等提出的新型检索方案，如何让智能搜索既快又省钱？,检索工具app

这项由滑铁卢大学、小米等机构研究人员共同完成的研究，以预印本形式于2026年6月5日发布在arXiv平台，论文编号为arXiv:2606.06880，研究方向属于信息检索与人工智能交叉领域。感兴趣的读者可通过该编号直接检索完整论文。

**一、从图书馆员到侦探：AI搜索的身份转变**

先从一个场景说起。你委托一位助理去图书馆帮你查一个极其冷僻的历史问题——比如"1916年某位女性曾在街头敲钟宣传她开办的泥砖学校，她是谁？"这个助理有两种工作方式。第一种，他跑进图书馆，迅速从书架上抽出五六本看起来相关的书，拍下几页内容递给你，然后说"就看这些吧"。第二种，他拿到一个通行证，可以在整座图书馆里自由穿行，翻开任何一本书，在书页间来回比对，直到找到答案为止。

显然，第二种方式更有可能找到答案。这正是近年来AI搜索领域正在经历的一场根本性转变——从"图书馆员"变成"侦探"。

传统的AI搜索系统扮演的是图书馆员的角色：系统根据你的问题检索出几份文件，塞进AI的"视野"里，AI读完这些内容后给出答案。这套方法学名叫做"检索增强生成"，是目前绝大多数AI问答系统的工作方式。它快，但有个致命弱点：如果答案不在那几份被挑出来的文件里，你就彻底没辙了。

而所谓"侦探模式"，是让AI直接在整个文件库里自由探索，就像一个侦探可以翻遍案发现场的每个角落。在计算机科学的术语里，这叫做"直接语料库交互"（Direct Corpus Interaction，简称DCI）——AI通过类似于电脑命令行的工具，比如`grep`（一种在文件里搜索特定词语的命令）和`cat`（查看文件内容的命令），在原始文件库里自由穿梭。

这个"侦探模式"听起来很美，但它有个严重问题：当案发现场从一个房间扩大到整座城市时，侦探就会迷路了。

**二、侦探在迷宫里迷失了方向**

研究团队在论文中引用了一个令人印象深刻的数字：当文件库从10万份文件扩大到20万份时，AI侦探平均需要调用的工具次数从38.5次暴增到86.9次，耗时和成本翻倍，而答题准确率却下降了13.6个百分点。当文件库继续扩大到40万份时，准确率直接跌至37.5%，而且每100个问题里有20个根本无法在规定时间内完成。

这个现象背后的原因其实很直观。`grep`这类命令就像是拿着手电筒在黑暗的图书馆里找书——文件库越大，扫描一遍所需的时间越长，AI侦探的大量精力都浪费在翻阅与答案毫不相关的内容上，等到它终于找到关键线索时，时间和预算已经耗尽了。

于是，研究团队面对的问题变得非常清晰：如何给这位AI侦探划定一个合理的"调查范围"，让它既不像图书馆员那样只能看几份预先挑好的文件，又不像无头苍蝇一样在整个文件库里乱撞？

这个问题的答案，就是本篇论文提出的核心概念——**交互空间**（Interaction Space）。

**三、给侦探划定案发现场：交互空间的两个关键设计**

研究团队给出了一个精妙的比喻框架，本文也将沿用这个框架来理解他们的方案。

以往的讨论要么让AI侦探只能看警方提前准备好的"案件摘要"（传统检索），要么让侦探在整座城市里自由行动（DCI）。研究团队的核心主张是：应当给侦探划定一个"案发现场封锁区"——一个有明确边界、但侦探可以在其中自由探索的空间。

这个"封锁区"需要满足两个关键条件，缺一不可。

第一个条件是**边界要由检索系统来划定**。封锁区不能太大，否则侦探依然会迷路；也不能太小，否则关键证据可能被圈在外面。这个边界必须是明确的、持久存在的，侦探可以反复在其中穿行，而不是每次"询问"系统后才临时拼凑一个范围。

第二个条件是**封锁区里的物证要经过整理**。放进封锁区的文件不能是杂乱无章的原始状态——就像一个真实案发现场，合格的侦探希望看到的不是堆在地上的一堆乱纸，而是已经被标注了"第3抽屉、第12页、第3段有关键信息"的有序档案。换句话说，文件需要被预处理，让侦探能快速定位到文件内部的具体位置，而不是每次都从头读到尾。

基于这两个条件，研究团队提出了他们的系统——**RISE**，全称是**Retrieving Interaction SpacE**（检索交互空间）。接下来我们详细看看RISE是怎么工作的。

**四、RISE的第一层设计：用BM25圈出"案发现场封锁区"**

BM25是一种非常经典的文本检索算法，历史可以追溯到上世纪90年代，其工作原理类似于"词频统计"——哪份文件里出现了你搜索的关键词，而且这些词在整个文件库里不太常见（说明它们更有区分度），那这份文件就更可能与你的问题相关。虽然BM25在技术上远不如近年来基于深度学习的神经网络检索方法"高端"，但研究团队有意选择了这个简单方案，原因后文会解释。

RISE的工作流程从AI侦探向BM25发出搜索请求开始。侦探可以一次性提交多个相关子问题，BM25从整个文件库中为每个子问题检索出排名最靠前的1000份文件，然后将这些文件的并集（去重后通常在一万份左右）统一放进一个专属于这次查询的工作目录里。这个工作目录就是"案发现场封锁区"。

这个封锁区有几个重要特性。首先，它存在于AI的"视野"之外——不是把1万份文件全部塞进AI的对话窗口（那根本放不下），而是以文件系统的形式存放在计算机的存储空间里，AI可以随时通过`grep`、`cat`等命令去访问。其次，AI每次执行新的搜索，结果会持续累积到这个工作目录中，封锁区会越来越完整，但从不会缩小——这就像案发现场的物证只会增加，不会莫名消失。第三，搜索返回给AI的直接反馈只是每个子问题的前10条预览，但完整的1000条检索结果都已悄悄存进了工作目录，AI可以通过后续的命令行工具逐一探索。

这个设计的妙处在于：AI侦探不需要在问题问出的那一瞬间就把所有相关文件读完——它可以先粗略扫描，发现线索后再精确定位。就像侦探到达案发现场后不会立刻把每件物品都细细研究，而是先环顾四周，确定方向，然后重点检查最可疑的区域。

研究团队将这个"只有BM25封锁区、没有文件预处理"的版本单独命名为**RISE-BM25**，作为一个对比实验的基准版本。这个版本只实现了两个条件中的第一个。

**五、RISE的第二层设计：给每份档案加上"导航地图"**

现在封锁区有了，但里面的文件依然是原始的纯文本——一篇几千字的学术论文或历史资料，侦探要找其中某个细节，还是需要从头读到尾。这就像虽然你把嫌疑人的全部档案都搬进了审讯室，但每份档案都是密密麻麻没有任何标注的手写文件。

RISE的第二层设计解决了这个问题：在将文件放入封锁区之前，系统会在离线状态下对每份文件进行一次预处理，给它加上一份**带行号的目录**（Table of Contents，简称TOC）。

这个预处理过程使用了OpenAI的一个小型AI模型（gpt-5.4-nano）来自动分析每份文件的结构，生成各章节的标题、描述和定位文字（锚点），然后由一段确定性程序在原文中精确定位这些锚点，并在文件开头插入一份格式化的目录，格式类似于"第22至47行：标题与摘要概述；第85至151行：研究方法与数据；第240至258行：结论与解释；第259至265行：致谢与信息来源"。

关键在于：这个预处理完全不修改原文内容，只是在前面加了一份导航地图。就像在一本没有目录的厚书前面加上"第58页：第一章，拿破仑的童年；第143页：第三章，滑铁卢战役"——书的内容一字未动，但读者找到自己需要的部分所需的时间从"逐页翻找"变成了"直接翻到那一页"。

研究团队在10万份文件上运行了这个流程，成功率非常高：99.3%的章节锚点能被精确定位，94.5%的文件至少生成了一条有效的目录条目，整个流程没有任何文件处理失败。每份文件的预处理成本约为0.0014美元，是一次性的离线工作，不影响查询时的实时性能。

**六、在"封锁区"里破案：AI侦探的实际工作流程**

现在RISE的两层设计都就位了，AI侦探是怎么工作的？研究团队提供了两个具体案例，非常生动地展示了这套系统的运作方式。

第一个案例来自RISE-BM25版本（只有封锁区、没有TOC预处理）。问题是这样的："1916年某位女性开办了一所日间学校，她曾走在街上敲钟宣传那所泥砖建造的学校，她是谁？"注意，答案中的人名完全没有出现在问题里，AI根本不知道自己要找谁。

面对这个问题，AI侦探没有直接去搜索答案，而是把问题分解成了15个不同角度的子问题，分五次提交给BM25。这些子问题分别从"110年前"、"火灾后重开于1970年代"、"在大火前开业"、"走在街上敲钟"、"1916年"等不同线索出发，每次搜索都把相关文件拉入封锁区，最终积累了6158份文件。然后，AI用`rg`命令（一种高效的文本搜索工具）在封锁区里同时搜索"泥砖"、"钟声"、"1916"、"火灾"、"重开"等关键词，在两份文件（一份关于某教堂历史，一份关于克伦斯塔德教区历史）中发现了关键线索，最终确认答案是"Sister Mary Theresa Dawkins"。整个过程只花了8轮对话、0.06美元。

第二个案例展示了TOC预处理的威力。问题是："找到一篇2010年代发表的论文，其致谢部分感谢了一位领导统计中心的名誉教授，请问这篇论文发表在哪个期刊？"

AI侦探通过一次搜索把相关文件拉入封锁区，然后打开一份候选论文的开头，看到了TOC：目录告诉它"第259至265行：致谢与信息来源"。AI没有读完这篇论文，直接跳到第259行开始阅读——那里写着对某统计中心名誉教授E. Jaba的感谢，完全符合题目线索。再往前看文件头部，论文所在期刊名称"Romanian Statistical Review"赫然在目。整个过程6轮对话，4次文件读取中有两次是直接跳到TOC指定的行号，没有任何无效的从头到尾扫描。

这两个案例形象地展示了RISE的"分工"：BM25负责圈定封锁区，AI侦探在封锁区里用命令行工具进行精确排查，而TOC则让侦探能直接翻到文件的关键页码，避免逐行阅读的低效。

**七、实验结果：在真实测试中，这套方案表现如何？**

研究团队用一个叫做BrowseComp-Plus的测试集来评估各种方案的表现。这个测试集的特点是问题非常难，全都是那种需要深度挖掘才能找到答案的"侦探级"问题，而且答案就藏在一个固定的文件库里（而不是依赖实时互联网搜索），这样不同方案的比较才公平。实验中，研究团队从这个测试集里随机抽取了100个问题进行评估。

实验对比了四套方案：完整的RISE（两层设计都有）、只有封锁区的RISE-BM25、传统的"摘要检索+文档获取"方案（称为retrieval-agent），以及完全无边界的DCI原始方案。同时，研究团队还测试了三种不同档次的AI模型——Xiaomi的mimo-v2.5-pro、OpenAI的gpt-5.4-mini（中等推理强度）和gpt-5.4-nano（高推理强度）。

在公平起见的设计上，研究团队刻意给了DCI更宽松的预算：DCI允许调用300次AI接口、使用1.5小时的时间，而RISE只允许100次调用和1小时时间。也就是说，DCI获得了3倍的接口调用次数和1.5倍的时间预算，任何有利于DCI的结果都是在这个"让步"条件下取得的。

结果如何？在中档模型gpt-5.4-mini上，RISE以78%的准确率与DCI持平，但每次查询的成本是0.28美元，而DCI是1.10美元——前者是后者的四分之一。在高档模型mimo-v2.5-pro上，RISE同样达到78%准确率，成本仅0.38美元；而DCI只有60%准确率，成本0.52美元，而且100个问题里有18个因为超时而没有给出答案。在低档模型gpt-5.4-nano上，DCI以71%的准确率领先，这是DCI表现最好的情况，但成本是0.20美元，而RISE只需0.05美元。

传统的摘要检索方案（retrieval-agent）在两个较大模型上都比RISE低约5到10个百分点，尽管它找到相关文件的能力和RISE差不多（两者的BM25召回率相近）。这说明问题不在于找不到文件，而在于找到文件之后，传统方案只把很少的内容真正"送到"AI面前——它把文件截成512字符的短片段再交给AI，大量有价值的内容在截取时就已经丢失了。

此外，研究团队还专门用最强的gpt-5.4模型测试了RISE，得到了82%的准确率，是所有配置中最高的，而且该模型在封锁区内"覆盖"到金标准文件的比率高达92.4%。这说明随着AI模型能力的提升，RISE的框架能持续受益，上限还远未触及。

**八、扩大十倍后的压力测试：当文件库膨胀到百万级别**

评估系统在"大海"里捞针的能力，不能只看小鱼塘里的表现。研究团队将文件库从10万份扩大到100万份（在原有文件库里加入了90万份来自FineWeb-Edu数据集的干扰文件），再次进行评估。

结果非常能说明问题。RISE-BM25不仅没有因文件库扩大而退步，反而还略有提升：mimo-v2.5-pro从75%升至83%，gpt-5.4-mini从77%升至81%，gpt-5.4-nano从64%升至65%。研究团队对这个小幅提升持谨慎态度，认为可能是更多文件让BM25的词频统计参数更为合理，或者新加入的文件里恰好有部分与问题相关但没被标注为"金标准"的内容。不管原因如何，关键结论是：文件库扩大10倍，RISE-BM25的表现没有崩溃。

与之形成鲜明对比的是DCI和传统摘要检索。DCI在低档模型nano上从71%直接跌至60%，而且100个问题里有33个因为超时而彻底没有答案——注意，超时的查询往往在等待全库扫描命令的过程中消耗了大量时间，最终什么都没查出来，但账单上显示的API费用反而更低（因为超时后调用次数少了）。这种"低成本但零结果"的情况，正是DCI在大规模场景下的典型失效模式。传统摘要检索方案在mime和nano档模型上也有所下滑，表现始终不如RISE-BM25。

研究团队也坦诚地说明了100万文件测试中RISE（完整版，含TOC预处理）没有参与：因为对新增的90万份文件运行TOC预处理需要额外的费用和时间，而这次实验预算不允许，所以100万文件的测试仅代表"有封锁区、无TOC预处理"的RISE-BM25版本。这是工程预算的限制，并不是RISE系统本身的架构障碍。

**九、BM25检索数量K：多大的封锁区才合适？**

研究团队还测试了一个实际使用中很重要的参数：每个子问题从文件库里检索出多少份文件放进封锁区？他们分别测试了每个子问题检索100份、1000份（默认值）、10000份三种设置。

结果显示，检索数量和准确率之间的关系并不是"越多越好"。在mimo模型上，K=100时准确率反而是最高的（76%），K=1000时为75%，K=10000时降至73%。在mini模型上，K=1000是最优的（77%），略高于K=100的75%和K=10000的75%。在nano模型上，三种设置相差无几（64%、64%、65%）。

这个结果背后的逻辑是：封锁区里的文件越多，AI侦探需要用命令行工具筛查的范围就越大，效率反而降低。K=1000时，积累的工作目录通常在7600到10400份文件之间，这个规模下命令行操作依然很快；K=10000时，工作目录膨胀到四五万份文件，操作明显变慢，却没带来更高的准确率。这说明RISE的核心逻辑在起作用：封锁区需要的是"足够召回相关文件"，而非"尽可能多地包含文件"。

顺便一提，改变K值对AI的接口调用费用几乎没有影响，因为额外的文件只是默默地加入工作目录，并不直接进入AI的对话窗口。K值主要影响的是本地命令行操作的速度，而不是AI的账单。

**十、局限性和未来空间**

研究团队在论文结尾非常坦率地列出了这项研究的不足之处，值得一并介绍。

目前RISE使用的是BM25这种经典的词频检索方法来划定封锁区，而更先进的密集向量检索、晚期交互检索等方法能否带来更好的效果，还没有经过验证。研究团队选择BM25是为了把"检索器的质量"和"交互空间框架本身"的贡献分开讨论，但这也意味着实验结果在检索技术上有进一步提升的空间。

TOC预处理的效果只在10万份文件的规模上得到了验证，100万文件规模下它能否同样有效，目前还缺乏直接证据。理论上没有障碍，但实验没有覆盖到这个规模。

评估的范围也相对有限：只用了BrowseComp-Plus这一个基准测试集，只评估了100个问题，只使用了封闭权重的AI模型，而且评判结果正确与否所使用的AI裁判（gpt-5.1）和实验中使用的部分AI模型来自同一家公司，这在一定程度上存在潜在的评估偏差风险。几个百分点的准确率差异应当被理解为"趋势性结论"而非"精确量化"。

此外，有一个"第四个角落"的实验缺口：如果把TOC预处理后的文件用于传统摘要检索方式（而非封锁区方式），效果如何？这个对比没有做，因此目前还不能完全把"封锁区界面"和"BM25预筛选"的贡献彻底分离。

归根结底，这项研究想说的是一件非常朴实的事：AI搜索代理需要的既不是一叠精选好的文件摘要，也不是一座可以随意进出的无边界图书馆，而是一个有围墙的院子——院子的大小由检索系统来定，院子里的每样东西都被贴好标签，方便AI侦探迅速找到需要的那页纸。RISE正是对这个想法的一次具体实现，而实验结果表明，这个看起来不那么"高科技"的方案，在成本和准确率的平衡上，确实超过了更暴力的"全库扫描"方式。

随着文件库规模持续扩大、AI模型能力持续增强，这项研究提出的框架性问题——"检索系统应该返回什么格式的结果给AI代理？"——可能比任何具体技术实现都更值得关注。目前的信息检索基准测试大多是为"给人看的排名列表"设计的，并不适合评估"给AI侦探用的交互空间"，这或许是这个领域接下来需要认真思考的方向。有兴趣深入了解的读者，可通过arXiv编号2606.06880查阅完整论文。

**Q&A**

Q1：RISE和传统RAG检索方式有什么本质区别？

A：传统RAG把文件截成短片段塞进AI对话窗口，AI只能看到那几段内容。RISE则是通过BM25检索出一批文件存入独立工作目录，AI可以用命令行工具反复探索，随时查看文件的任意部分，不受对话窗口大小的限制，更像是给了AI一个可以自由翻阅的文件柜，而不是几张提前抄好的卡片。

Q2：BM25这么老的技术，为什么在RISE里还能有效果？

A：BM25虽然是上世纪90年代的技术，但它的关键作用不是精确排名，而是"圈出范围"。只要相关文件出现在检索的1000份结果里（召回率够高），AI就能在后续的命令行探索中找到答案。实验显示BM25的召回率在75%到88%之间，足够支撑AI侦探在封锁区里完成推理，而且计算速度极快，适合构建实时交互的工作目录。

Q3：RISE处理100万份文件时为什么准确率反而略有提升？

A：研究团队认为有两种可能的解释。一是新增的90万份文件让BM25的词频统计参数（即IDF值）更加合理，使得检索结果更准确地匹配AI提交的搜索查询。二是新增文件中可能本身就有与问题相关的内容，只是没有被标注为"官方金标准答案"。不管哪种原因，关键结论是文件库扩大10倍后系统没有性能崩溃，这与DCI在同等条件下准确率下降11个百分点的表现形成了明显对比。