分享
上下文工程工具全景
输入“/”快速插入内容
上下文工程工具全景
用户1208
用户1208
5月29日修改
相关内容
:「上下文工程(配置指南)」 | 「第三方工具」 | 「MCP 服务器生态系统」
本页梳理帮助你管理上下文窗口内容的工具生态系统。它是「以配置为重心的上下文工程指南」的补充,后者聚焦于 CLAUDE.md 结构和路径范围限定。本页关注更广泛的工具全景:输出压缩、提示词压缩、AI 网关、RAG 优化、可观测性和推理基础设施。
目录
1.
思维模型
2.
核心概念
3.
输出压缩:CLI 与工具输出
(RTK、Headroom、context-mode、stacklit)
4.
提示词压缩
5.
AI 网关
6.
RAG 优化
7.
记忆系统
8.
KV 缓存基础设施
9.
LLMOps 与可观测性
10.
按使用场景选择工具
11.
前沿研究动态
1. 思维模型
让所有内容串联起来的框架:
上下文窗口是内存,不是磁盘
。
内存速度快、成本高、容量有限。你不会在运行程序前把所有东西都加载进内存。你只在程序需要时加载它需要的内容。LLM 上下文同理:每一个放入其中的 Token(词元)都会占用其他内容的空间,产生成本,并与模型的注意力竞争。
这重新定义了工程挑战。问题不是"如何给模型更多信息",而是"模型成功完成任务所需的最小可行信息集是什么"。本页的每项技术都是对这第二个问题的回答。
与系统架构的类比可以进一步延伸。没有良好内存管理的 CPU 会卡顿。没有良好上下文管理的 LLM 会产生幻觉、失去连贯性,并退化为泛化输出。优化上下文不是降本练习,而是可靠性投资。
2. 核心概念
最小可行上下文(MVC)
MVC 是只提供任务所需信息、不多不少的原则。它有两种看似相反却源于同一原因的失败模式:
•
上下文不足
:模型缺乏必要信息,产生幻觉或泛化输出
•
上下文过载
:模型被无关信息淹没,注意力分散,遵从性下降
关于遵从性下降的研究(参见「上下文工程指南第 2 节」)量化了上下文过载的失败:CLAUDE.md 超过 400 行通常会使遵从度降至约 60%。原因是注意力分散——过多潜在相关信号争夺模型有限的注意力预算。
MVC 不是为了简洁而简洁,而是追求精准。一个覆盖模型所需内容的 300 token 系统提示,胜过一个将关键指令淹没在第五页的 3000 token 提示。
上下文退化
上下文退化描述随着会话中上下文长度增长,模型行为质量下降的现象。研究最充分的形式是"遗忘中间"现象:模型对置于长上下文中间的信息持续性地低权重处理,主要关注开头和结尾。
实践中的实证影响:
•
CLAUDE.md 文件顶部的指令比底部的指令遵从度更高
•
在长时智能体会话中,随着新内容将其推向中间,早期约束的显著性降低
•
会话初期的工具输出在多轮交互后往往实际上被"遗忘"
缓解措施:在上下文使用率达到 70% 时(而非 90%)运行
/compact
,使用结构化记录 Hooks,以及在根本上下文需求发生变化时重启会话。
/compact
命令会总结对话历史,将陈旧内容移出活跃注意力窗口,同时保持连贯性。
语义激活假设
来自压缩研究的一个观察,具有实践意义:对上下文进行极限压缩(删除大多数 Token(词元))后,模型不会逐字回忆被删除的信息。被压缩的上下文充当
语义激活触发器
——它激活模型权重中训练时已存在的相关潜在知识。
这一点很重要,因为它意味着高度压缩的上下文能比其信息密度所暗示的表现更好。模型不是从上下文中重建事实;而是被指向它已掌握的相关知识。对于训练充分的领域,10 个 Token(词元)的提示可能比 100 个 Token(词元)的逐字摘录激活更多相关知识。
实践含义:上下文紧张时,关键词和结构性线索优于散文。"使用 OpenAPI 3.1,严格模式,不允许 nullable"比用两段话解释同样的内容能检索出更精确的行为。
上下文退化 vs Token(词元)成本:两种压力
上下文管理同时面临方向相反的两种压力:
压力
原因
影响
缓解措施
上下文退化
内容过多
注意力分散,遗忘中间
剪裁、压缩、范围限定
Token(词元)成本
每个 Token(词元)都计费
超出预算,延迟增加
压缩、过滤、缓存
压缩解决成本问题,剪裁解决退化问题。良好的上下文工程同时兼顾两者。
3. 输出压缩:CLI 与工具输出