AI 入门科普:从 LLM 到 Agent 的 13 个基础名词
写给完全的 AI 小白。如果你只用过 ChatGPT 网页版,没有写过一行代码,这篇文章会用做菜、雇人、装修房子的比喻,把你最近一定会反复听到的术语一次讲明白。每个名词都会回答四件事:是什么、它在背后怎么工作、AI 是怎么用它的、生活里像什么。
摘要
过去两年,AI 圈每隔几周就会”发明”一个新词:LLM、Agent、MCP、Skill、AGENTS.md……听起来都很硬核,其实它们组合起来在干同一件事——让会聊天的模型,慢慢长出手脚,能真正帮你干活。这篇笔记会先给每个名词一个比喻,再说”是什么 / 怎么工作 / AI 怎么用 / 一个生活例子”,最后用一段”全景图”把它们串起来。
研究问题
- 一个完全没有技术背景的读者,需要掌握哪些名词,才能看懂今天 AI 圈的讨论?
- LLM、Agent、MCP、Skill、AGENTS.md 这五个最核心的概念,它们在背后到底是怎么运作的?
- 这些名词是怎么协同工作的?有没有一张”全景图”?
一、先建立一个直觉:AI 现在长什么样?
想象你雇了一个超级聪明但完全不熟悉你家情况的实习生:
- 他读过几乎所有公开的书和网页(这就是 LLM);
- 但他只会”说”,不会动手——你让他订机票,他只能告诉你”建议你打开携程”;
- 于是大家给他配了手脚(工具调用)、说明书(Prompt / Skill / AGENTS.md)、外接资料库(RAG)、统一插座(MCP);
- 配齐之后,他从一个”能说会道的实习生”变成了一个”能独立完成任务的助理”——这就是 Agent。
下面我们逐个拆开看,并且重点讲它们在背后是怎么转起来的。
二、6 个核心名词(你点名要的)
1. LLM(Large Language Model,大语言模型)
一句话比喻:一个读完了半个互联网、记忆力惊人但有点爱编故事的实习生。
是什么
LLM 是用海量文本训练出来的神经网络。它的本质技能其实只有一个:给一段文字,预测最有可能出现的下一个词。听起来朴素得离谱,但当你把这个本事放大到几千亿参数 + 万亿级别的训练文本,就涌现出写文章、写代码、做翻译、做总结、甚至做推理的能力。ChatGPT、Claude、Gemini、DeepSeek 背后都是 LLM。
它是怎么工作的
可以把 LLM 的一生粗暴地拆成两段:练成它和用它。
(1) 练成它(训练阶段)
- 第一步:预训练(Pre-training)——把互联网上能拿到的文本(书籍、网页、代码、Wikipedia……)一股脑灌给模型,让它做一件事:盖住下一个词,让模型猜。猜错就调一调内部的”参数旋钮”,几千亿次循环之后,它就把语言里的统计规律压进了自己的几千亿参数里。
- 第二步:后训练 / 对齐(Post-training / RLHF)——预训练完的模型像个 18 岁的天才野孩子,啥都懂但说话没分寸。这一步用人类标注员示范”什么是好答案”、”什么是不该说的话”,再用强化学习的办法(RLHF:Reinforcement Learning from Human Feedback)让它学会”听人话”、”礼貌”、”拒绝有害请求”。
- 结果:你日常用的 ChatGPT、Claude,都是经过了对齐的”礼貌版”模型,不是赤裸裸的预训练模型。
(2) 用它(推理阶段)
这是你每按一次回车实际发生的事:
- 切 Token:你输入的”今天天气怎么样?”会被先切成几个 token(大约 6–8 个)。Token 是模型的”最小语言单位”,可能是一个汉字、半个汉字、一个英文单词或者几个字母。
- 算注意力:模型把这些 token 喂进 Transformer 网络,每一层都让 token 之间互相”打量一下对方”(这就是 Attention 注意力机制),算出每个位置应该重视哪些上下文。
- 预测下一个 token:跑完所有层,模型输出一个概率表——“下一个 token 是『晴』的概率 32%,『阴』12%,『要』8%……”。
- 采样:按这个概率挑一个词(不一定挑最高的,留一点随机性才显得”有灵气”)。
- 拼起来再来一遍:把刚挑出来的 token 接到输入末尾,重新跑一遍 1–4,再吐一个 token。如此循环,直到吐出”句号 + 结束符”。
所以你看到 AI 回答是一个字一个字蹦出来的,那不是为了好看,是它真的在一字一字地猜。
AI 是怎么使用它的
LLM 是其他所有名词背后的”发动机”。在一次完整的 AI 对话里:
- 它负责理解你说了什么;
- 它负责决策——要不要调工具?调哪个?参数填什么?
- 它负责生成——把工具结果或者自己脑子里的知识写成人话回给你。
任何 Agent、Skill、MCP 调用,最后都得回到 LLM 这里”过一遍脑子”。LLM 不工作,整套系统就是死的。
生活例子
你问它”帮我写一封请假邮件”,它能秒出一份像样的邮件——因为它在训练时见过几百万封邮件长什么样,知道”尊敬的 X 总”后面大概率跟”由于……特此申请……”。
小白常见误解
❌ “LLM 是从一个数据库里查答案。”
✅ 它没有数据库,知识是被”压缩”进了几千亿个参数。所以它会忘事、会编、会过时——这是机制决定的,不是 bug。
2. Agent(智能体)
一句话比喻:**给实习生配上手机、键盘和门禁卡——他从”建议你做什么”变成”我去帮你做了”**。
是什么
Agent 是以 LLM 为”大脑”,再加上工具(手脚)+ 记忆(笔记本)+ 规划(行程表)+ 反思(复盘)的一整套系统。它的关键特征是自主性:你给一个目标,它自己拆任务、自己调工具、自己看结果、自己决定下一步该干嘛。
它是怎么工作的
经典做法叫 ReAct 循环(来自 Yao 等人 2022 年的同名论文,Reasoning + Acting 的合体),后来演化成各家版本,但骨架都是一样的:”想一下 → 做一下 → 看一下结果 → 再想一下”。(来源)
一次典型的 Agent 跑动是这样:
- 接到目标:用户说”帮我把这个月的发票汇总到一张 Excel”。
- Thought(想):LLM 在内部”自言自语”——“我需要先找发票文件夹,再识别每张 PDF 的金额和日期,最后写进 Excel”。
- Act(做):从可用工具列表里挑一个,输出
调用 list_files(path="~/Downloads/发票")。 - Observation(看):执行环境真的去列文件,把结果(”一共 23 个 PDF”)回喂给 LLM。
- 再 Thought:LLM 看到 23 个文件,决定下一步是”逐个读取并提取金额”。
- 再 Act → 再 Observation → 再 Thought……如此循环。
- 完成 / 反思:要么任务搞定就回复你,要么发现走不通就回退一步重试。
除了这个主循环,一个完整的 Agent 一般还有几个组件:
| 组件 | 作用 | 类比 |
|---|---|---|
| 规划 (Planning) | 把大目标拆成小步骤 | 项目经理列 todo |
| 工具使用 (Tool Use) | 真正去点按钮、调 API | 实习生的手脚 |
| 记忆 (Memory) | 短期:当前对话;长期:跨会话存储 | 工作笔记本 + 备忘录 |
| 反思 (Reflection) | 失败后复盘,下次别再踩坑 | 周会复盘 |
单 Agent vs 多 Agent:
- 单 Agent:一个”全能实习生”自己干完所有活。简单任务够用。
- 多 Agent:好几个 Agent 各管一摊,互相对话协作——比如一个负责调研、一个负责写作、一个负责审稿。任务复杂时效果更好,但也更容易”集体跑偏”。
AI 是怎么使用它的
你今天用到的”高级 AI 产品”基本都是 Agent 形态:
- Claude Code / Cursor / Codex:编码 Agent。你说”修这个 bug”,它会自己读代码、跑测试、改文件、再跑测试。
- ChatGPT 的 Agent 模式 / Operator:浏览器 Agent。你说”帮我订明早 8 点北京飞上海的票”,它真的去打开浏览器一步步操作。
- Devin、AutoGPT 类:长任务 Agent,可以连续跑几小时。
在产品语境里,”Agent” 这个词的含金量取决于它能自主跑多少步而不出错。能跑 50 步的 Agent 比能跑 5 步的强一个量级。
生活例子
你说”帮我整理一下下载文件夹,把发票归到一起,发一份到我邮箱”。Agent 会列出步骤 → 读文件 → 识别发票 → 移动到子文件夹 → 调邮件接口发送。中途出错还会自己重试。(来源)
小白常见误解
❌ “Agent 是一种新模型。”
✅ Agent 不是模型,它是一套用 LLM 搭出来的系统。同一个 Claude 模型,套上不同的 Agent 框架,能力天差地别。
3. ReAct(Reasoning + Acting,”边想边做”的范式)
一句话比喻:侦探破案——先在脑子里推理一下,再去现场取证;看到新线索,回头修推理;如此循环直到结案。
是什么
ReAct 是 Yao et al. 在 2022 年 10 月发表的论文《ReAct: Synergizing Reasoning and Acting in Language Models》提出的范式(arXiv:2210.03629)。它不是一个软件、不是一个框架、也不是一个产品,而是一种让 LLM 在解决任务时”边想边做”的提示词模板。它的核心主张:让模型只做”思维链 (Chain-of-Thought)”或者只做”调工具”都不够,把这两件事交错穿插起来,模型解决复杂任务的能力会显著上一个台阶。(来源)
它是怎么工作的
ReAct 把 Agent 每一步都拆成三个固定环节,循环执行:
1 | Thought(想)→ Action(做)→ Observation(看到结果)→ Thought(再想)→ Action → Observation → ... → Final Answer |
- Thought:模型用自然语言写下”我现在打算干嘛、为什么这么干”。这一步纯文字,没有副作用,主要是给自己理清思路。
- Action:模型输出一个结构化的工具调用(如
search("上海 今天 天气"))。 - Observation:外部系统真的去执行 Action,把返回值(如 “上海多云转阵雨,最高 28°C”)回喂给模型。
- 拿到 Observation 后,模型基于新信息再写一段 Thought,决定下一步——这就形成了闭环。
举个生活化的例子——你对 AI 说”帮我查一下今天上海天气,决定要不要带伞“:
- Thought 1:用户想知道是否需要带伞,关键是看今天上海会不会下雨。我应该先查天气。
- Action 1:
get_weather(city="上海", date="today") - Observation 1:
{"condition": "多云转阵雨", "rain_probability": 0.7, "temp": 28} - Thought 2:降雨概率 70%,肯定要带伞;多云转阵雨意味着白天可能突然下,折叠伞最合适。
- Action 2:
reply_to_user("今天上海多云转阵雨、降雨概率 70%,建议带把折叠伞。") - 结束。
ReAct vs 纯 CoT(Chain-of-Thought)
新手最容易混的就是 ReAct 和 CoT:
| 范式 | 模型干嘛 | 局限 |
|---|---|---|
| 纯 CoT(思维链) | 只在脑子里推理,不接触外界 | 遇到”今天天气””昨天股价”这种实时事实只能瞎猜 |
| 纯 Tool Use(不带显式 Thought) | 直接吐工具调用,省掉推理 | 简单任务可以,复杂任务一旦中间出岔就不会自我纠错 |
| ReAct = CoT + Tool Use | 既显式推理,又能动手验证,还能根据观察修正下一步 | 多花一些 token,但鲁棒性显著更好 |
ReAct 论文在 HotpotQA、ALFWorld 等基准上的实验显示,它明显优于上面两种”单方案”。
AI 是怎么使用它的
虽然 ReAct 本身只是一种”提示模板”,但它已经成了几乎所有现代 Agent 框架的默认骨架:
- LangChain / LlamaIndex 早期的 Agent 实现就是直接照搬 ReAct prompt。
- AutoGPT、BabyAGI 等”长任务 Agent”把 ReAct 循环跑得更长、加上记忆和反思。
- Claude / GPT 的原生 tool use——你看到模型一边输出”我需要先查一下…”一边发起
search(...)调用——本质就是 ReAct 的工程化变体,只是把 Thought / Action 字段做成了模型 API 的结构化输出,不再依赖纯文本拼接。
可以这么说:今天 Agent 圈的”标准动作”,绝大多数都站在 ReAct 这块基石上。
生活例子
把 ReAct 比作侦探破案:先在脑子里推理(Thought:”凶器可能是钝器”)→ 去现场取证(Action:检查屋子)→ 看到新线索(Observation:地上有玻璃碎片)→ 再推理(Thought:”那应该是花瓶”)→ 再行动(Action:去查花瓶来源)……破不出来就回头修推理,直到锁定真相。一个好的侦探不是只动脑、也不是瞎跑腿,而是脑和腿轮流上。
小白常见误解
❌ “ReAct 是某个软件 / 库 / 产品。”
✅ 它是一种提示词模板 / 推理范式。任何 LLM 配上”Thought → Action → Observation”的提示结构,都可以跑 ReAct——你今天用 Claude / GPT 的工具调用,背后跑的就是它的近亲。
4. MCP(Model Context Protocol,模型上下文协议)
一句话比喻:AI 世界的 USB-C 接口。
是什么
MCP 是 Anthropic 在 2024 年 11 月 25 日 推出的开源协议,专门用来标准化”AI 应用 ↔ 外部工具/数据源”之间的连接方式。它定义了一套”接线规则”,让任何 AI 应用都能用同一种方式接任何工具。(来源)
它是怎么工作的
MCP 把世界划成三个角色:
| 角色 | 谁 | 干嘛 |
|---|---|---|
| Host(宿主) | AI 应用本体(Claude Desktop、Cursor、Zed……) | 和你直接对话,决定要不要调工具 |
| Client(客户端) | 嵌在 Host 里的一个小模块 | 负责和某个具体的 Server 维持一条通信链路 |
| Server(服务端) | 工具/数据源的提供方(GitHub MCP、文件系统 MCP、数据库 MCP……) | 真正干活的那一方,暴露能力给外面 |
它们之间用 JSON-RPC 2.0(一种轻量的远程过程调用协议)沟通,传输层可以是本地的 stdio(同一台机器跑两个进程),也可以是 HTTP(远程服务)。(来源)
一次完整的工具调用链路(小白版):
- 启动握手:你打开 Claude Desktop(Host),它内部启动一个 MCP Client,去连一个 GitHub MCP Server。两边互相打招呼:”我支持哪些能力?” “你能给我提供哪些工具?” 这一步叫能力协商(capability negotiation)。
- 你提问:你对 Claude 说”看一下我 GitHub 上 last week 合并的 PR”。
- 模型决策:LLM 看了一眼可用工具列表,发现有个
github.list_pulls工具能干这事,于是输出一个调用请求。 - Client 转发:MCP Client 把请求按 JSON-RPC 格式打包,发给 GitHub MCP Server。
- Server 执行:Server 真的去调 GitHub API,拿到数据,再原路回传。
- 结果回喂模型:Host 把结果塞回 LLM 的上下文里。
- 生成回答:LLM 用人话总结结果:”你上周合并了 3 个 PR,分别是……”
1 | 你 ──▶ Host (Claude Desktop) |
为什么要”标准化”——USB-C 比喻再展开
在 MCP 出现之前,每接一个新工具都得为每个 AI 应用单独写一份胶水代码。N 个 AI 应用 × M 个工具 = N×M 份适配代码,社区累死也写不完。
MCP 把它变成 N + M:工具方只写一次 Server,所有兼容 MCP 的 AI 应用都能用。就像在 USB-C 普及之前,每个手机品牌都有自己的充电头,旅行带一堆线;普及之后,一根 USB-C 插哪都能用。
OpenAI、Google DeepMind 在 2025 年也跟进支持了 MCP,这意味着它从”Anthropic 自家协议”变成了事实标准。
AI 是怎么使用它的
在你日常使用 Claude Desktop / Cursor 时:
- 你在配置文件里加一行 MCP Server(比如装个
mcp-server-filesystem),重启应用。 - AI 启动时自动通过 MCP Client 和 Server 握手,记下”哦,我现在多了 6 个文件操作的工具”。
- 之后你说”看下我桌面有啥”,模型就会自己输出
调用 list_directory("~/Desktop"),剩下的交给 MCP 链路。 - 你不需要写一行代码,就给 AI 接上了真实文件系统。
生活例子
以前每个电器都要配独家充电头,现在大家都用 USB-C,一根线走天下。MCP 就是给 AI 工具世界定的那根 USB-C。
小白常见误解
❌ “MCP 是一个工具。”
✅ MCP 是一个协议(一套规矩)。具体的工具叫 MCP Server。一个像”普通话”,一个像”说普通话的人”。
5. Skill(Claude Skills / Agent Skills)
一句话比喻:给实习生的”行业操作手册 + 工具箱”,平时摆在书架上,用到才翻。
是什么
Anthropic 在 2025 年 10 月 16 日 发布的能力,12 月 18 日 又升级成了跨平台的开放标准。一个 Skill 就是一个文件夹,里面有:
- 一个必备的
SKILL.md(YAML 头部写名字和简介,正文写指令); - 可选的脚本(Python / Bash 等,用来做”模型自己算不准”的活儿);
- 可选的模板、参考文档、示例数据。(来源)
它是怎么工作的
Skill 的精髓叫 “渐进式披露”(progressive disclosure)——意思是”按需展开,不一上来就把全部细节塞进模型脑子”。
具体流程是这样:
- 目录扫描:Claude 启动时,会扫一眼所有 Skill 文件夹,但只读每个
SKILL.md头部的name和description这两行。这一步只占很少 token,不会撑爆上下文。 - 挂在脑后:模型现在大致知道”我手上有这些技能:处理发票、生成 PPT、画流程图、写商业计划书……”但具体怎么做还没看。
- 匹配触发:你提问时,LLM 会基于你的话,去匹配哪个 Skill 的
description最相关。比如你说”帮我把这张发票录入”,它脑子里”叮”一下——“发票处理 Skill!”。 - 完整加载:这时它才真的读
SKILL.md的全文,把里面的步骤、模板、引用的脚本路径加载进上下文。 - 执行:按 Skill 里写的步骤干活。如果 Skill 里规定”用
extract_invoice.py这个脚本提金额”,它就调那个脚本。 - 任务完事,淡出上下文。
1 | 书架上摆着 50 本手册 ──[只看封面]──▶ LLM 知道有这些技能 |
为什么这么设计? 因为上下文窗口是有限且昂贵的资源。如果一上来就把 50 个 Skill 的全文塞进 prompt,模型既慢又贵还容易分心。”用到才翻”是对算力的尊重。
Skill vs MCP vs RAG:到底谁管啥?
这是新手最容易混的三件事,强行对比一下:
| 维度 | Skill | MCP | RAG |
|---|---|---|---|
| 本质 | 一份操作手册(教 AI 怎么做) | 一个接口协议(教 AI 怎么连工具) | 一种检索机制(给 AI 提供事实) |
| 形式 | Markdown 文件夹 + 脚本 | JSON-RPC 通信规范 | 向量数据库 + 检索代码 |
| 解决的问题 | “我怎么做这件事” | “我怎么调那个工具” | “这个事实哪里查” |
| 是否需要外部服务 | 不需要 | 通常需要 | 通常需要 |
可以这么记:Skill 教方法,MCP 通工具,RAG 查事实。
AI 是怎么使用它的
在 Claude Code 里非常具体:
- 你在
~/.claude/skills/或项目目录下放一个report-writingSkill 文件夹。 - 启动 Claude Code 时它自动扫描,”挂在脑后”。
- 你说”按我的研究笔记模板写一篇笔记”,它匹配到
research-noteSkill,读取里面的SKILL.md和templates/research-note.md,按模板写。 - 写完文件保存到 Skill 里规定的路径。
整个过程你不用每次手动复制模板,也不用在每次对话里重述规则——Skill 替你”教过它一次”。
生活例子
你雇的实习生本来不会填发票,但你给了他一个 发票处理 Skill 文件夹——里面有公司报销规则、Excel 模板、一段处理 PDF 的脚本。下次你说”帮我报销这张发票”,他就自动翻开这本手册照做。
小白常见误解
❌ “Skill 把所有内容都加载进 prompt,会很贵。”
✅ 因为渐进式披露,没用到的 Skill 几乎不花 token,用到的也只加载相关片段。
6. AGENTS.md
一句话比喻:写给 AI 队友看的 README.md。
是什么
AGENTS.md 是一个开放格式:在项目根目录放一个名为 AGENTS.md 的 Markdown 文件,用大白话告诉 AI 编码助手——“这个项目怎么 build、怎么测、有哪些不能动的目录、提交信息要写成什么格式”。它不是替代 README.md(那是给人看的),而是补一份给”机器队友”看的说明书。(来源)
由 OpenAI Codex、Google Jules、Cursor、Amp(Sourcegraph)、Factory 等团队共同发起,目前由 Linux Foundation 旗下的 Agentic AI Foundation 托管。截至 2025 年底已有 6 万多个开源项目采用。(来源)
它是怎么工作的
非常朴素,没有协议、没有运行时——它就是一个 Markdown 文件。
- 你写一份
AGENTS.md放在项目根目录。里面通常包含:- 项目简介(一句话讲清这是干嘛的)
- 如何安装依赖、如何启动、如何测试
- 代码风格约定(缩进、命名、注释规范)
- “Agent 不要碰这些文件”的红线
- 提交信息(commit message)格式
- AI Agent 启动时自动读取:Codex / Cursor / Gemini CLI / Aider 等工具检测到项目根有这个文件,就把它当作最高优先级的项目说明塞进 system prompt。
- 跨子目录覆盖:大型 monorepo 里可以在子目录里再放
AGENTS.md,子目录里的版本会覆盖根目录的——就像 git 的.gitignore一样可以分层。 - AI 干活时持续遵守:之后 Agent 写的每行代码、跑的每条命令,都会先回头看一眼
AGENTS.md,确保不违反约定。
为什么需要一个”跨厂商统一”的格式
在 AGENTS.md 之前,每家 AI 编码工具都有自己一套:
| 工具 | 自己的项目说明文件 |
|---|---|
| Anthropic Claude Code | CLAUDE.md |
| Cursor | .cursorrules / .cursor/rules/ |
| Aider | .aider.conf.yml + CONVENTIONS.md |
| GitHub Copilot | .github/copilot-instructions.md |
| Continue | .continuerc.json |
如果一个开源项目想”对所有 AI 编码助手都友好”,过去得维护 5 份内容差不多的文件。AGENTS.md 想做的就是让大家都读同一份,相当于”AI 编码工具圈的 EditorConfig”。
AI 是怎么使用它的
举个具体场景。一个新的开源仓库,根目录有 AGENTS.md,写着:
1 | # AGENTS.md |
你打开 Cursor,让它”加一个用户登录功能”。Cursor 启动时读了这个文件,于是它:
- 装依赖会自动用
pnpm add,不会用npm install; - 写完代码会主动跑
pnpm test; - 提交信息会写
feat(auth): add user login; - 即使你说”顺便重构一下 legacy 文件夹”,它也会停下来跟你确认——“AGENTS.md 不让动那里”。
和 CLAUDE.md 的关系:CLAUDE.md 是 Anthropic 的 Claude Code 专用约定文件,定位类似但只服务 Claude。AGENTS.md 想做跨厂商通用版本。短期内务实做法是项目里两份都放,或者让 CLAUDE.md 第一行写”请先阅读 AGENTS.md”。截至 2026 年初,Claude Code 还没有原生支持 AGENTS.md。
生活例子
你新招了 5 个不同公司外包的实习生(Cursor / Copilot / Codex / Gemini / Devin),与其挨个口头交代规矩,不如在前台贴一张《本项目作业守则》,谁来都先看一眼——这张守则就是 AGENTS.md。
小白常见误解
❌ “AGENTS.md 是一个新的协议或框架。”
✅ 它就是一份 Markdown 文件,没有任何运行时、没有 schema 强约束。它的”标准”只是约定大家把这种说明放在这个文件名里。极简但有效。
三、再补 7 个一定会撞见的配套名词
7. Prompt / Prompt Engineering(提示词 / 提示词工程)
比喻:给实习生下指令的艺术。
- 是什么:你输入给 AI 的那段话叫 Prompt。Prompt Engineering 就是研究”怎么把话说清楚,让 AI 干得好”。
- 它怎么工作:你的 Prompt 会和 System Prompt(如果有)拼在一起,整体被切成 token 喂给 LLM。模型把这段话当成”故事开头”,去预测”故事接下来该写什么”——所以你越能把开头写得像”一个专家在认真回答”,它接下来生成的也越像专家。
- AI 怎么用:每一次对话都要 Prompt。即使你只打了”你好”,背后也会被裹上一层 System Prompt(”你是一个有用的 AI 助手……”)。Agent 内部每一步 Thought 也都是在拼新的 Prompt。
- 小例子:让 AI 翻译时加一句”请保留原文的幽默语气”,效果立刻不一样。”你是某领域资深编辑,请用 800 字、3 段式、面向初学者的口吻写……”和”帮我写篇文章”,结果天差地别。
8. Token / 上下文窗口(Context Window)
比喻:**实习生的”工作台面积”**——一次只能摊开这么多纸。
- 是什么:模型不是按”字”处理文本,而是按 token。中文里大约 1 个汉字 ≈ 1–2 token,英文 1 个单词 ≈ 1–1.5 token。一次对话能塞进多少 token,叫上下文窗口。
- 它怎么工作:输入先经过 Tokenizer(分词器) 切成 token 序列;模型处理完输出 token 序列;再被 Tokenizer 反过来拼成人类看的字。窗口超限时,最早的内容会被挤出去(或被自动总结后压缩)——这就是聊久了 AI 会”忘事”的原因。
- AI 怎么用:所有上下文相关的事——对话历史、System Prompt、Skill 内容、RAG 检索结果、工具输出——都共享同一个窗口。窗口越大越能塞,但太大也烧钱、变慢、注意力分散。
- 生活例子:你让 AI 总结一本 30 万字的书,如果它的上下文窗口装不下,要么读不完,要么得分块读。今天主流模型从 8K 到 200 万 token 不等。
9. Tool Use / Function Calling(工具调用 / 函数调用)
比喻:让实习生会用打印机、订票网站、Excel。
- 是什么:让 LLM 不只是输出文字,而是输出一段结构化的”我想调用某个工具,参数是什么”。后台程序拿到这个请求,去真的调用,再把结果喂回模型。
- 它怎么工作:
- 开发者在 Prompt 里告诉模型:”你有这些工具:
weather(city)、send_email(to, body)……” - 模型生成时如果觉得需要工具,就吐一段特殊格式的 JSON,比如
{"tool": "weather", "args": {"city": "北京"}},不是普通文本。 - 程序拦截这段 JSON,真的去调 API,拿到返回值(27°C)。
- 把返回值塞回模型上下文,模型再用人话回复你。
- 开发者在 Prompt 里告诉模型:”你有这些工具:
- AI 怎么用:这是 Agent 真正”动手”的底层机制,也是 MCP 想要标准化的对象,更是 ReAct 循环里 “Action” 一步的具体落地形式。Agent 跑的每一步 Act,本质都是一次 Tool Use。
- 生活例子:你问”今天北京几度?”,模型不会”瞎猜”,而是输出调用
weather(city="北京"),后台跑完返回 27°C,模型再用人话回复你。
10. RAG(Retrieval-Augmented Generation,检索增强生成)
比喻:实习生开卷考试——遇到不会的,先去翻你给他的资料夹。
- 是什么:在让 LLM 回答之前,先从你的私有资料(PDF、内部文档、数据库)里”检索”出相关片段,塞进 Prompt 里再生成答案。
- 它怎么工作:
- 建库(一次性):把你所有文档切成小段,每段用一个嵌入模型转成”向量”(一串数字),存进向量数据库。
- 检索(每次问问题):你的问题也被转成向量,去库里找”距离最近”的几段。
- 拼 Prompt:把这几段原文塞进 Prompt 里——“参考下面资料回答:[资料 1]……[资料 2]……问题:……”
- 生成:LLM 基于这些资料回答,而不是凭记忆。
- AI 怎么用:企业 AI 客服、内部知识库问答、法律/医疗助手几乎都是 RAG。它让通用模型秒变”懂你公司的人”。
- 生活例子:你公司的 HR 助手 AI——你问”产假多久”,它会先去检索员工手册第 12 章,再用人话回答你。
11. Hallucination(幻觉)
比喻:实习生不懂装懂,一脸认真地编了个不存在的答案。
- 是什么:模型生成了听起来很合理、但事实是错的、甚至彻底虚构的信息。比如编造一个不存在的论文标题、捏造一个 API 函数。
- 它怎么发生:LLM 的本质是”猜下一个字”,它优化的是”听起来连贯”,而不是”事实正确”。当训练里没见过你问的事,它不会说”不知道”——它会按统计规律编一个最像那个领域会出现的答案。
- 怎么应对:
- 用 RAG 给它真实资料;
- 让它显式引用来源;
- 关键事实人工复核;
- 用”如果你不确定,就回答 unknown”这种 Prompt 提示。
- 底线:别拿着模型张口就来的东西去吵架。重要事情查原始来源。
12. System Prompt / CLAUDE.md(系统提示词 / 项目约定文件)
比喻:实习生入职第一天的员工手册——他每次开工前都会复读一遍。
- 是什么:System Prompt 是开发者预先塞在每次对话最前面的”角色与规则”,用户看不见但模型一定看。
CLAUDE.md是 Claude Code 在项目目录里读取的约定文件,本质就是一份项目级 system prompt。Cursor 有.cursorrules,OpenAI/Google 等阵营推AGENTS.md,路数都一样。 - 它怎么工作:每次你按回车,系统在你看不见的地方拼出这样的结构:
[System Prompt] + [CLAUDE.md 内容] + [对话历史] + [你这次的输入],然后整体喂给模型。模型把 System Prompt 当成”最高指示”,会优先遵守。 - AI 怎么用:避免你每次都重复说”请用中文””请别瞎编代码””这是个 Next.js 项目”。在 Claude Code 里,把规则写进
CLAUDE.md,每次新会话它都会自动遵守。 - 生活例子:你在
CLAUDE.md里写”所有研究笔记都放进research/notes/“,Claude Code 之后就会自觉照办。
13. Multimodal(多模态)
比喻:实习生不仅识字,还看得懂图、听得懂语音、看得懂视频。
- 是什么:模型能同时处理文字、图片、音频、视频等多种”模态”的输入/输出。
- 它怎么工作:图片/音频被一个专门的”编码器”转成和文字一样格式的 token 序列(叫 visual token / audio token),和文字 token 一起塞进同一个 Transformer 里。模型看不出”这是字还是图”——对它来说都是一串数字。所以它能一边看图一边读字一起推理。
- AI 怎么用:这让 AI 能做的事从”读文档”扩展到”看截图调 bug””听会议录音做纪要””根据草图生成网页””看视频回答问题”。
- 生活例子:你给它截一张报错截图加一句”这是什么意思”,它能直接读图回答你。
四、全景图:这些名词怎么协同?
把它们想成一家”AI 公司”的组织结构:
1 | ┌──────────── Agent(一整个会做事的助理)─────────────┐ |
一次完整任务的剧本(例:让 Claude Code 帮你写一篇研究笔记并发到 Obsidian):
- 你输入 Prompt:”写一篇 AI 入门科普”。
- Claude Code 启动时读了
CLAUDE.md和AGENTS.md(System Prompt),知道笔记要放进research/notes/。 - LLM 拆解任务,决定先做研究——这里它进入 Agent 的 ReAct 循环(Thought → Action → Observation)。
- 它通过 Tool Use 调用 WebSearch / WebFetch(这些底层就是 MCP 风格的工具调用)补充最新事实,避免 Hallucination。
- 写作过程中它发现自己有一个
research-note的 Skill,就自动加载里面的模板和写作风格(渐进式披露)。 - 把结果写成 Markdown,再调一个
publish_to_obsidian的 MCP Server 把笔记同步出去。 - 整个流程是一个 Agent 在 Context Window 内闭环执行;如果你给的是图片附件,Multimodal 能力让它能直接看图。
看懂这张图,你就看懂了今天 90% 的 AI 产品在卖什么。
五、术语速查表
| 名词 | 一句话理解 | 关键机制 |
|---|---|---|
| LLM | AI 的”大脑”,会说话的语言模型 | 训练时学统计规律,推理时一字一字猜 |
| Agent | LLM + 手脚 + 记忆 = 能做事的助理 | 在 ReAct 等范式下自主拆任务、调工具、看结果 |
| ReAct | 让 LLM “边想边做”的提示范式(Reasoning + Acting) | Thought → Action → Observation 循环 |
| MCP | AI 工具世界的 USB-C 接口 | Host + Client + Server,JSON-RPC 通信 |
| Skill | 按需加载的”专业操作手册文件夹” | 渐进式披露,先扫简介,匹配后再读全文 |
| AGENTS.md | 写给 AI 队友看的项目说明书 | 根目录 Markdown,启动时自动读 |
| Prompt | 你给 AI 下的指令 | 拼进上下文,影响下一个 token 的概率 |
| Token / 上下文窗口 | AI 的”工作台面积” | 分词器切,超限即丢 |
| Tool Use | AI 真正去点按钮、调 API 的能力 | 模型吐 JSON,外部程序执行;ReAct 中的 Action |
| RAG | 让 AI 开卷考试,基于你的资料回答 | 向量检索 + Prompt 拼接 |
| Hallucination | AI 一本正经地胡说八道 | 概率预测的副作用 |
| System Prompt / CLAUDE.md | 入职第一天的员工手册 | 拼在每次对话最前面 |
| Multimodal | 同时看得懂字、图、声音、视频 | 各模态统一编码成 token |
六、新手 FAQ
Q1:我现在该学哪个?
先把 Prompt 用熟,再玩一玩带工具的 Agent(Claude Code、Cursor、ChatGPT 的 GPTs/Agents 都行)。MCP / Skill / AGENTS.md 是给”想搭自己工作流”的人准备的,不必一开始就啃。
Q2:MCP 和 Function Calling 是不是一回事?
不是。Function Calling 是”模型怎么表达想调工具”,MCP 是”工具方怎么把自己暴露成一个标准服务”。一个是嘴,一个是接口。一次完整调用:模型用 Function Calling 表达意图 → MCP 协议把这个意图运到 Server → Server 干活回传。
Q3:Skill 和 RAG 区别?
Skill 是”教 AI 怎么做事”(流程 + 脚本),RAG 是”给 AI 提供事实”(检索资料)。一个偏过程,一个偏知识。完全可以同时用:在一个 Skill 里规定”遇到事实问题时调用 RAG”。
Q4:AGENTS.md 会不会取代 CLAUDE.md?
短期内两者并存。AGENTS.md 想做跨厂商通用规范,CLAUDE.md 是 Claude Code 的本地约定。务实做法:项目里两份都放,或者让 CLAUDE.md 一句话引用 AGENTS.md。
Q5:AI 真的能完全替代我吗?
现在的 Agent 像一个”很努力但偶尔犯糊涂的实习生”——交给它定义清晰、可验证的活儿很合适,关键决策还是要人把关。
Q6:所有这些机制听起来很复杂,普通用户为啥要懂?
因为懂了之后你提问会变厉害。比如知道有上下文窗口,你就会主动总结历史;知道有幻觉,你就会要求引用来源;知道有工具调用,你就会问”你能不能直接帮我跑一下”。
不确定性
- AGENTS.md 的采用速度变化很快,”60,000 + 项目”的统计来自 2025 年底的二手报道,未来 6 个月的数字可能已经过时。
- Claude Skills 自 2025-10 发布以来还在快速迭代,”渐进式披露”细节可能在 2026 年内继续演化,建议复核官方工程博客。
- “Agent” 这个词在不同厂商语境下定义不一致,本文采用的是”LLM + 工具 + 规划”的常见工业界定义,与 ReAct 论文的原始定义一脉相承。
- ReAct 论文发表于 2022 年 10 月,原始范式之后衍生出 Plan-and-Execute、Reflexion、Tree of Thoughts 等多种变体,本文只讲了最基础的 ReAct 循环。
- LLM 训练阶段的描述做了大量简化,省略了 SFT、DPO、Constitutional AI 等具体技术;目标是让小白看懂大致流程,不是技术准确性。
后续行动
- 如果读者反馈良好,可以再写一篇”动手篇”:在自己电脑上配一个 Claude Code + 一个 MCP Server。
- 跟踪 AGENTS.md 在 2026 年是否被 Anthropic / Claude Code 原生支持。
- 对比一下 Claude Skills、ChatGPT 的 GPTs、Cursor Rules 三者的边界。
- 单独写一篇 ReAct 循环 vs Plan-and-Execute vs Reflexion 等 Agent 架构对比。
来源
- Model Context Protocol 官方网站
- Model Context Protocol Architecture Specification
- Model Context Protocol — Wikipedia
- Anthropic — Introducing Claude Skills(已重定向到 claude.com)
- Anthropic Engineering — Equipping agents for the real world with Agent Skills
- Yao et al. 2022 — ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629)
- AGENTS.md 官方网站
- Socket.dev — AGENTS.md Gains Traction as an Open Format
- 腾讯云开发者社区 — 什么是 AI Agent?
- 阿里云开发者社区 — AI Agent 核心概念组件原理到多智能体系统