Appearance
课外阅读:RAG 知识库架构入门
延展阅读 | 技术认知
什么是 RAG
RAG(检索增强生成)= 让大模型「开卷考试」。
不给模型重新训练,而是在用户提问的那一刻,临时把你自己的资料检索出来,塞进 prompt,让模型看着资料回答。本质上是一个搜索引擎 + 一个大模型:搜索负责找到对的资料,模型负责用资料组织答案。
RAG 解决的三个问题
通用大模型有三硬伤:会幻觉(胡说)、知识会过期、不懂你的私有数据。
RAG 一次性缓解这三样:把权威的、最新的、私有的资料当"开卷材料"喂给模型,让答案有据可查。
PM 需要知道的核心链路
离线建库:文档 → 解析 → 切块 → 向量化 → 存入向量库
在线问答:提问 → 检索相关块 → 重排精选 → 组装 prompt → LLM 生成 → 带引用答案RAG 的功力,八成在检索,两成在生成。 检索找不准,再强的模型也会胡说。
三个关键决策
1. RAG、长上下文、还是微调?
| 路线 | 适用场景 |
|---|---|
| RAG | 资料多、要常更新、要溯源 |
| 长上下文 | 资料极少且固定 |
| 微调 | 要改变模型"行为风格"而非"知识" |
大部分企业知识库场景用 RAG。三条路也可以组合。
2. 切块怎么切?
文档要切成小块才能检索。切太大噪音多,切太小丢上下文。切块是 RAG 里最被低估、却最影响效果的环节。 PM 不需要知道具体算法,但要知道"切块质量直接影响答案质量"。
3. 纯向量检索还是混合检索?
向量擅长语义接近("车"和"汽车"),但对精确关键词(产品型号、人名)反而不灵。生产级 RAG 多用混合检索(向量 + 关键词),两者互补。
常见误区
- ✗ 答案不好,就怪模型笨 → ✓ 先查检索是不是找对了资料
- ✗ 切块随便切 → ✓ 按语义切 + 有重叠,持续评估
- ✗ 检索到的内容就当可信 → ✓ 外部内容一律当不可信输入
- ✗ 不给引用来源 → ✓ 可溯源才可信
※ PM 核心备忘:RAG 让产品可以基于用户的私有数据回答问题。作为 PM,你要关注的是:① 资料来源质量和更新频率;② 检索准确率(找得对不对);③ 答案能不能引用回原文——「有据可查」是用户信任的基础。
本篇基于 awesome-architecture RAG 知识库架构模板整理。
课程讨论
有问题或想法?欢迎在下方留言讨论。