课外阅读：RAG 知识库架构入门

延展阅读 | 技术认知

什么是 RAG

RAG（检索增强生成）= 让大模型「开卷考试」。

不给模型重新训练，而是在用户提问的那一刻，临时把你自己的资料检索出来，塞进 prompt，让模型看着资料回答。本质上是一个搜索引擎 + 一个大模型：搜索负责找到对的资料，模型负责用资料组织答案。

通用大模型有三硬伤：会幻觉（胡说）、知识会过期、不懂你的私有数据。

RAG 一次性缓解这三样：把权威的、最新的、私有的资料当"开卷材料"喂给模型，让答案有据可查。

离线建库：文档 → 解析 → 切块 → 向量化 → 存入向量库
在线问答：提问 → 检索相关块 → 重排精选 → 组装 prompt → LLM 生成 → 带引用答案

RAG 的功力，八成在检索，两成在生成。 检索找不准，再强的模型也会胡说。

大部分企业知识库场景用 RAG。三条路也可以组合。

文档要切成小块才能检索。切太大噪音多，切太小丢上下文。切块是 RAG 里最被低估、却最影响效果的环节。 PM 不需要知道具体算法，但要知道"切块质量直接影响答案质量"。

向量擅长语义接近（"车"和"汽车"），但对精确关键词（产品型号、人名）反而不灵。生产级 RAG 多用混合检索（向量 + 关键词），两者互补。

※ PM 核心备忘：RAG 让产品可以基于用户的私有数据回答问题。作为 PM，你要关注的是：① 资料来源质量和更新频率；② 检索准确率（找得对不对）；③ 答案能不能引用回原文——「有据可查」是用户信任的基础。

本篇基于 awesome-architecture RAG 知识库架构模板整理。