Exhaustive Search
突破传统关键词乃至 RAG 搜索的局限性,全新基于深度语义理解的全文搜索体验
不只是简单的关键词匹配,而是利用 AI 真正理解您的问题和文档内容的含义,以近似人工的方式,从头到尾地阅读,找到语义相关的所有信息。
RAG 是进行嵌入和重排序,只返回有限个结果,若要寻找合同之中所有可能的问题则带来遗漏。地毯式搜索扫描整个文档,像人一样从头到尾找所有相关信息,而不仅仅是前几个结果。
自动判别扫描版或者可编辑版,多渠道完美支持多种复杂排版的扫描型 PDF,识别文本内容,无需您提前转换。
后端灵活,可以接入强大的在线大语言模型进行意图判断和语义搜索,也可以采用特制的专有模型快速响应。
不仅是图片识别,还(暂时)全球独家支持 PDF / Word / Powerpoint 等文档中嵌入的图片内容搜索!
支持各种音频格式,对于会议记录、讲座内容也不需要人工去听,一搜即得。
直接上传您需要搜索的文件,支持拖拽和选择
毫无压力地使用自然语言描述任何您想要查找的内容,如“所有关于气候变化的段落”
系统会自动完成文档处理,逐个返回匹配到的结果,让您一览无余
用户提问:"文档中所有关于环保技术创新的描述"
"...我们投资了 3 亿元用于环保技术的创新研发,包括新型过滤材料和能源回收系统..."
"...通过纳米材料的应用,我们的环保过滤技术效率提升了 35%,同时耗能降低 22%..."
"...张工提出了一个创新的环保解决方案,利用废热回收装置降低工厂能耗..."
"...(这是一张关于环保技术覆盖率增长的柱状图)..."
| 功能 | 传统关键词搜索 | 现存的 AI 检索增强 (RAG) | 地毯式搜索 |
|---|---|---|---|
| 语义理解 | |||
| 全文检索 | |||
| 图片内容识别 | |||
| 扫描版 PDF | |||
| 音频内容 | |||
| 结果全面性 | 关键词匹配 | 仅 Top K 个结果 | 所有相关内容 |
快速从大量论文中找到所有与研究主题相关的内容,不错过任何重要参考资料。
从年报、财报、会议记录、日志中提取关键业务信息,发现隐藏的技术和商业洞察。
在大量法律、合同文件中查找相关案例和条款,或筛出可能的法律漏洞,极大提高法律工作效率。
分析文学作品中的修辞手法、情感表达,支持文学研究和写作分析。
从海量史料记载之中快速找到符合搜索条件的记录,节约天量人工查找的时间。
甚至可以考虑将信用卡消费账单、出差酒店报销单等材料作为数据来源,搜索其中可疑的行径。
梳理海量的公开记录、泄露数据库或社交媒体归档,挖掘隐藏的人物关系网络、资金流向或特定的安全威胁线索。
在成千上万页的采访录音稿、政府公开文件或泄露邮件中,精准定位逻辑矛盾与利益输送的确凿证据,为深度报道提供坚实支撑。
在成堆的扫描版历史病历和处方中,精准揪出符合特定“罕见并发症”或“禁忌用药逻辑”的临床记录,杜绝医疗风险。
从成千上万页极其枯燥的设备说明书和维修日志中,快速定位特定环境下的故障排查指南或极端操作限制。
在 IPO 招股书或并购重组的底稿中,地毯式扫描隐藏在附注里的“对赌协议”、“关联交易”及潜在的债务暴雷风险。
超越传统的关键词匹配,在数万份简历中找出真正具备“主导过跨部门危机公关”或“从零搭建过复杂系统”逻辑经历的候选人。
本技术方案并非简单全文向量化,完全模仿人类行为,因此理论上单个文件无特殊限制。但由于文件大小将直接影响搜索时长,请避免上传过于巨大的文件。
得益于大语言模型,地毯式搜索原生支持多种语言的文档处理和搜索,可以同时处理多语言混合的文档,问题亦然。
所有上传的文件仅在处理期间临时存储,处理完成后自动删除。我们没有空间,也无意记录您的文件,若您有隐私忧虑,也可以洽谈商业本地部署。
系统智能采用先进的多模态视觉模型协助处理图表和图像,能够识别图表中的数据和趋势,并提供相关描述以供搜索。
没什么创新。语义理解在神经网络和 NLP 里很常见,但切合用户痛点的终端产品不多。都是踩在天才肩膀上。我只是为了满足自己搜索需求,集合了多种文档识别、自己写逻辑代码、大量测试最佳实践。尤其是 PDF 的部分,种类繁杂,现有的各种开源识别框架其实都很不完美,我做的多后端降级容错逻辑(Fallback),并进行了海量的最佳实践测试。
传统的 Rerank 基于 Encoder 架构,看起来用来命中搜索很合理,但本质上是极高维度的“高级近义词连连看”。它在处理宽泛的主题搜索(如“伦理考量”)时,矩阵乘法能实现毫秒级响应;但它缺乏涌现智能,一旦面对“寻找论证谬误”、“隐含态度分析”这类涉及抽象逻辑和概念嵌套的 Query,就会彻底失效。为了跨越传统信息检索(IR)的障碍,本系统为解决 LLM 串行生成(Decode)带来的致命延迟,直接封闭其嘴巴,与其说是算法创新,不如说是在当今畸形的 AI 资源分配下,实现了一套极高 ROI 的工业级信息抽取(IE)系统。没有造高深的轮子,只是把模型的能力边界和个人的业务逻辑拼合到了极致。
由于运行神经网络模型和接入 API 进行地毯式搜索,会产生大量运算和 token,均需要较高成本,本服务不能免费提供,按照文件大小计费。每 M 20 元。