Skip to content
所有標籤

#retrieval

13 篇文章
ai deep-dive

Agent 怎麼決定「要不要查、查什麼、怎麼合」:Agentic RAG 的三個決策層

傳統 RAG 是固定管線「先查再答」;Agentic RAG 把檢索拆成三層決策:何時檢索(FLARE 用 token 機率、Adaptive-RAG 用複雜度分類器)、檢索什麼(HyDE / RAG-Fusion / 分解 / Step-back)、如何整合(RRF k=60 → cross-encoder rerank → 壓縮,Anthropic 實測失敗率 −67%)。關鍵反直覺:不必要的檢索會傷品質,「決定不查」是一級能力。

ai deep-dive

Deep Research Agent 怎麼蓋:多輪搜尋規劃、衝突調和、可驗證結論

自主研究 agent = 四個可控環節:規劃(拆子問題)、檢索迴圈(search→read→反思 gap→再 search)、證據仲裁(≥2 獨立來源、衝突分型處理)、可驗證輸出(句級引用 + 獨立查核 pass)。兩條路線:訓練派用 RL 端到端學會何時搜(Search-R1 +41%),編排派用 orchestrator-worker 分工(Anthropic 內部評測 +90.2%,代價 ~15× token)。

ai deep-dive

語意相似 ≠ 檢索相關:embedding 檢索系統性失靈的情境、偵測與補救

Cosine similarity 和 relevance 在一整類情境系統性背離:否定詞(NevIR 上多數 IR 模型 ≤ 隨機)、精確識別碼、數值門檻、邏輯組合(SoTA 模型在 LIMIT 上 recall@100 < 20)——其中一部分是單向量範式的理論上限,換大模型無解。補救順序:hybrid BM25 → reranker(Anthropic 實測 −67%)→ 上游 metadata 路由 → 領域微調 / multi-vector。

ai deep-dive

換更貴的 embedding 救不了繁中 RAG:三層失敗成因與補救順序

繁中 RAG 檢索失敗是三層疊加:embedding 的粒度缺陷(BGE/GTE 從 0.1B 到 7B 都在「炸鸡」這種簡單 query 上排錯)、簡中/英文語料主導造成的在地詞彙偏移(保費、不保事項對齊不可靠)、MTEB 中文榜是簡體導致選型訊號失真。修復是架構性的:OpenCC 正規化 → hybrid + jieba 斷詞 → reranker → 最後才是在地微調——而且一切前提是先建繁中專屬 eval set。

ai deep-dive RAG 系統實戰

PageIndex:不做向量的 RAG,把長文件變成一本有目錄的書

PageIndex 不切 chunk、不做 embedding、不存向量,靠 LLM 推理一份 LLM 自己寫的目錄樹,在 FinanceBench 拿到 98.7%(GPT-4o 直讀只有 31%)。它解的不是向量 RAG 的同一個問題——是『在一份結構清楚的厚文件裡找對的那一節』。

ai guide

LongRAG:用長上下文模型重新思考 RAG 的 Chunking 策略

傳統 RAG 把文件切成小 chunks 再檢索,但這造成資訊碎片化。LongRAG 利用 100K+ token 的長上下文模型,檢索更大的文件區段(整個章節甚至整份文件),減少碎片化同時保持檢索效率。

ai guide RAG 系統實戰

RAG 系統模式完整指南:從 Naive 到 Multi-Agent 的十代演化與實戰導航

RAG 已經從簡單的「搜尋+生成」演化成涵蓋十個世代的技術體系。本文是系統化導航:從 Naive RAG 到 Multi-Agent RAG 的十代演化、檢索策略、Chunking、Embedding、Reranking、評估框架、可觀測性、成本優化。每個主題都有對應專文深入。

ai guide

Chunking 策略:切塊方式決定 RAG 能不能找到答案

切太大找不準,切太小失去上下文。Chunking 是 RAG 最被低估的環節,策略選錯,後面再多優化都是白費。

ai guide

ColBERT:向量搜尋的第三條路

Bi-Encoder 太粗糙,Cross-Encoder 太慢,ColBERT 的 Late Interaction 在兩者之間找到平衡:token 級別的相互比較,但可以預先計算文件向量。

ai guide

CRAG:檢索失敗時,自動放寬條件重試

過濾條件太嚴格導致零結果?CRAG 自動放寬過濾條件重試,比讓 LLM 用通用知識瞎猜好多了。

ai guide

Cross-Encoder Reranking:讓最相關的文件排到前面

向量搜尋的相似度分數不等於相關性,Cross-Encoder 用成對比較重新排序,把真正相關的文件推上來。

ai guide

RRF:RAG 系統裡多路結果怎麼合併

BM25、向量搜尋、HyDE、Multi-Query 各出一份結果,怎麼合理地合成一份?RRF 用名次而不用分數,規避了跨系統分數無法比較的根本問題。

ai guide

SPLADE:比 BM25 更聰明的稀疏向量搜尋

BM25 只認識查詢裡出現的詞,SPLADE 能推斷相關詞彙並加入搜尋,在保持關鍵字搜尋精確性的同時獲得部分語義能力。