AI 入门科普：从 LLM 到 Agent 的 13 个基础名词

写给完全的 AI 小白。如果你只用过 ChatGPT 网页版，没有写过一行代码，这篇文章会用做菜、雇人、装修房子的比喻，把你最近一定会反复听到的术语一次讲明白。每个名词都会回答四件事：是什么、它在背后怎么工作、AI 是怎么用它的、生活里像什么。

摘要

过去两年，AI 圈每隔几周就会”发明”一个新词：LLM、Agent、MCP、Skill、AGENTS.md……听起来都很硬核，其实它们组合起来在干同一件事——让会聊天的模型，慢慢长出手脚，能真正帮你干活。这篇笔记会先给每个名词一个比喻，再说”是什么 / 怎么工作 / AI 怎么用 / 一个生活例子”，最后用一段”全景图”把它们串起来。

研究问题

一个完全没有技术背景的读者，需要掌握哪些名词，才能看懂今天 AI 圈的讨论？
LLM、Agent、MCP、Skill、AGENTS.md 这五个最核心的概念，它们在背后到底是怎么运作的？
这些名词是怎么协同工作的？有没有一张”全景图”？

一、先建立一个直觉：AI 现在长什么样？

想象你雇了一个超级聪明但完全不熟悉你家情况的实习生：

他读过几乎所有公开的书和网页（这就是 LLM）；
但他只会”说”，不会动手——你让他订机票，他只能告诉你”建议你打开携程”；
于是大家给他配了手脚（工具调用）、说明书（Prompt / Skill / AGENTS.md）、外接资料库（RAG）、统一插座（MCP）；
配齐之后，他从一个”能说会道的实习生”变成了一个”能独立完成任务的助理”——这就是 Agent。

下面我们逐个拆开看，并且重点讲它们在背后是怎么转起来的。

二、6 个核心名词（你点名要的）

1. LLM（Large Language Model，大语言模型）

一句话比喻：一个读完了半个互联网、记忆力惊人但有点爱编故事的实习生。

是什么

LLM 是用海量文本训练出来的神经网络。它的本质技能其实只有一个：给一段文字，预测最有可能出现的下一个词。听起来朴素得离谱，但当你把这个本事放大到几千亿参数 + 万亿级别的训练文本，就涌现出写文章、写代码、做翻译、做总结、甚至做推理的能力。ChatGPT、Claude、Gemini、DeepSeek 背后都是 LLM。

它是怎么工作的

可以把 LLM 的一生粗暴地拆成两段：练成它和用它。

(1) 练成它（训练阶段）

第一步：预训练（Pre-training）——把互联网上能拿到的文本（书籍、网页、代码、Wikipedia……）一股脑灌给模型，让它做一件事：盖住下一个词，让模型猜。猜错就调一调内部的”参数旋钮”，几千亿次循环之后，它就把语言里的统计规律压进了自己的几千亿参数里。
第二步：后训练 / 对齐（Post-training / RLHF）——预训练完的模型像个 18 岁的天才野孩子，啥都懂但说话没分寸。这一步用人类标注员示范”什么是好答案”、”什么是不该说的话”，再用强化学习的办法（RLHF：Reinforcement Learning from Human Feedback）让它学会”听人话”、”礼貌”、”拒绝有害请求”。
结果：你日常用的 ChatGPT、Claude，都是经过了对齐的”礼貌版”模型，不是赤裸裸的预训练模型。

(2) 用它（推理阶段）

这是你每按一次回车实际发生的事：

切 Token：你输入的”今天天气怎么样？”会被先切成几个 token（大约 6–8 个）。Token 是模型的”最小语言单位”，可能是一个汉字、半个汉字、一个英文单词或者几个字母。
算注意力：模型把这些 token 喂进 Transformer 网络，每一层都让 token 之间互相”打量一下对方”（这就是 Attention 注意力机制），算出每个位置应该重视哪些上下文。
预测下一个 token：跑完所有层，模型输出一个概率表——“下一个 token 是『晴』的概率 32%，『阴』12%，『要』8%……”。
采样：按这个概率挑一个词（不一定挑最高的，留一点随机性才显得”有灵气”）。
拼起来再来一遍：把刚挑出来的 token 接到输入末尾，重新跑一遍 1–4，再吐一个 token。如此循环，直到吐出”句号 + 结束符”。

所以你看到 AI 回答是一个字一个字蹦出来的，那不是为了好看，是它真的在一字一字地猜。

AI 是怎么使用它的

LLM 是其他所有名词背后的”发动机”。在一次完整的 AI 对话里：

它负责理解你说了什么；
它负责决策——要不要调工具？调哪个？参数填什么？
它负责生成——把工具结果或者自己脑子里的知识写成人话回给你。

任何 Agent、Skill、MCP 调用，最后都得回到 LLM 这里”过一遍脑子”。LLM 不工作，整套系统就是死的。

生活例子

你问它”帮我写一封请假邮件”，它能秒出一份像样的邮件——因为它在训练时见过几百万封邮件长什么样，知道”尊敬的 X 总”后面大概率跟”由于……特此申请……”。

小白常见误解

❌ “LLM 是从一个数据库里查答案。”
✅ 它没有数据库，知识是被”压缩”进了几千亿个参数。所以它会忘事、会编、会过时——这是机制决定的，不是 bug。

2. Agent（智能体）

一句话比喻：**给实习生配上手机、键盘和门禁卡——他从”建议你做什么”变成”我去帮你做了”**。

是什么

Agent 是以 LLM 为”大脑”，再加上工具（手脚）+ 记忆（笔记本）+ 规划（行程表）+ 反思（复盘）的一整套系统。它的关键特征是自主性：你给一个目标，它自己拆任务、自己调工具、自己看结果、自己决定下一步该干嘛。

它是怎么工作的

经典做法叫 ReAct 循环（来自 Yao 等人 2022 年的同名论文，Reasoning + Acting 的合体），后来演化成各家版本，但骨架都是一样的：”想一下 → 做一下 → 看一下结果 → 再想一下”。(来源)

一次典型的 Agent 跑动是这样：

接到目标：用户说”帮我把这个月的发票汇总到一张 Excel”。
Thought（想）：LLM 在内部”自言自语”——“我需要先找发票文件夹，再识别每张 PDF 的金额和日期，最后写进 Excel”。
Act（做）：从可用工具列表里挑一个，输出 调用 list_files(path="~/Downloads/发票")。
Observation（看）：执行环境真的去列文件，把结果（”一共 23 个 PDF”）回喂给 LLM。
再 Thought：LLM 看到 23 个文件，决定下一步是”逐个读取并提取金额”。
再 Act → 再 Observation → 再 Thought……如此循环。
完成 / 反思：要么任务搞定就回复你，要么发现走不通就回退一步重试。

除了这个主循环，一个完整的 Agent 一般还有几个组件：

组件	作用	类比
规划 (Planning)	把大目标拆成小步骤	项目经理列 todo
工具使用 (Tool Use)	真正去点按钮、调 API	实习生的手脚
记忆 (Memory)	短期：当前对话；长期：跨会话存储	工作笔记本 + 备忘录
反思 (Reflection)	失败后复盘，下次别再踩坑	周会复盘

单 Agent vs 多 Agent：

单 Agent：一个”全能实习生”自己干完所有活。简单任务够用。
多 Agent：好几个 Agent 各管一摊，互相对话协作——比如一个负责调研、一个负责写作、一个负责审稿。任务复杂时效果更好，但也更容易”集体跑偏”。

AI 是怎么使用它的

你今天用到的”高级 AI 产品”基本都是 Agent 形态：

Claude Code / Cursor / Codex：编码 Agent。你说”修这个 bug”，它会自己读代码、跑测试、改文件、再跑测试。
ChatGPT 的 Agent 模式 / Operator：浏览器 Agent。你说”帮我订明早 8 点北京飞上海的票”，它真的去打开浏览器一步步操作。
Devin、AutoGPT 类：长任务 Agent，可以连续跑几小时。

在产品语境里，”Agent” 这个词的含金量取决于它能自主跑多少步而不出错。能跑 50 步的 Agent 比能跑 5 步的强一个量级。

生活例子

你说”帮我整理一下下载文件夹，把发票归到一起，发一份到我邮箱”。Agent 会列出步骤 → 读文件 → 识别发票 → 移动到子文件夹 → 调邮件接口发送。中途出错还会自己重试。(来源)

小白常见误解

❌ “Agent 是一种新模型。”
✅ Agent 不是模型，它是一套用 LLM 搭出来的系统。同一个 Claude 模型，套上不同的 Agent 框架，能力天差地别。

3. ReAct（Reasoning + Acting，”边想边做”的范式）

一句话比喻：侦探破案——先在脑子里推理一下，再去现场取证；看到新线索，回头修推理；如此循环直到结案。

是什么

ReAct 是 Yao et al. 在 2022 年 10 月发表的论文《ReAct: Synergizing Reasoning and Acting in Language Models》提出的范式（arXiv:2210.03629）。它不是一个软件、不是一个框架、也不是一个产品，而是一种让 LLM 在解决任务时”边想边做”的提示词模板。它的核心主张：让模型只做”思维链 (Chain-of-Thought)”或者只做”调工具”都不够，把这两件事交错穿插起来，模型解决复杂任务的能力会显著上一个台阶。(来源)

它是怎么工作的

ReAct 把 Agent 每一步都拆成三个固定环节，循环执行：

1	Thought（想）→ Action（做）→ Observation（看到结果）→ Thought（再想）→ Action → Observation → ... → Final Answer

Thought：模型用自然语言写下”我现在打算干嘛、为什么这么干”。这一步纯文字，没有副作用，主要是给自己理清思路。
Action：模型输出一个结构化的工具调用（如 search("上海今天天气")）。
Observation：外部系统真的去执行 Action，把返回值（如 “上海多云转阵雨，最高 28°C”）回喂给模型。
拿到 Observation 后，模型基于新信息再写一段 Thought，决定下一步——这就形成了闭环。

举个生活化的例子——你对 AI 说”帮我查一下今天上海天气，决定要不要带伞“：

Thought 1：用户想知道是否需要带伞，关键是看今天上海会不会下雨。我应该先查天气。
Action 1：get_weather(city="上海", date="today")
Observation 1：{"condition": "多云转阵雨", "rain_probability": 0.7, "temp": 28}
Thought 2：降雨概率 70%，肯定要带伞；多云转阵雨意味着白天可能突然下，折叠伞最合适。
Action 2：reply_to_user("今天上海多云转阵雨、降雨概率 70%，建议带把折叠伞。")
结束。

ReAct vs 纯 CoT（Chain-of-Thought）

新手最容易混的就是 ReAct 和 CoT：

范式	模型干嘛	局限
纯 CoT（思维链）	只在脑子里推理，不接触外界	遇到”今天天气””昨天股价”这种实时事实只能瞎猜
纯 Tool Use（不带显式 Thought）	直接吐工具调用，省掉推理	简单任务可以，复杂任务一旦中间出岔就不会自我纠错
ReAct = CoT + Tool Use	既显式推理，又能动手验证，还能根据观察修正下一步	多花一些 token，但鲁棒性显著更好

ReAct 论文在 HotpotQA、ALFWorld 等基准上的实验显示，它明显优于上面两种”单方案”。

AI 是怎么使用它的

虽然 ReAct 本身只是一种”提示模板”，但它已经成了几乎所有现代 Agent 框架的默认骨架：

LangChain / LlamaIndex 早期的 Agent 实现就是直接照搬 ReAct prompt。
AutoGPT、BabyAGI 等”长任务 Agent”把 ReAct 循环跑得更长、加上记忆和反思。
Claude / GPT 的原生 tool use——你看到模型一边输出”我需要先查一下…”一边发起 search(...) 调用——本质就是 ReAct 的工程化变体，只是把 Thought / Action 字段做成了模型 API 的结构化输出，不再依赖纯文本拼接。

可以这么说：今天 Agent 圈的”标准动作”，绝大多数都站在 ReAct 这块基石上。

生活例子

把 ReAct 比作侦探破案：先在脑子里推理（Thought：”凶器可能是钝器”）→ 去现场取证（Action：检查屋子）→ 看到新线索（Observation：地上有玻璃碎片）→ 再推理（Thought：”那应该是花瓶”）→ 再行动（Action：去查花瓶来源）……破不出来就回头修推理，直到锁定真相。一个好的侦探不是只动脑、也不是瞎跑腿，而是脑和腿轮流上。

小白常见误解

❌ “ReAct 是某个软件 / 库 / 产品。”
✅ 它是一种提示词模板 / 推理范式。任何 LLM 配上”Thought → Action → Observation”的提示结构，都可以跑 ReAct——你今天用 Claude / GPT 的工具调用，背后跑的就是它的近亲。

4. MCP（Model Context Protocol，模型上下文协议）

一句话比喻：AI 世界的 USB-C 接口。

是什么

MCP 是 Anthropic 在 2024 年 11 月 25 日 推出的开源协议，专门用来标准化”AI 应用 ↔ 外部工具/数据源”之间的连接方式。它定义了一套”接线规则”，让任何 AI 应用都能用同一种方式接任何工具。(来源)

它是怎么工作的

MCP 把世界划成三个角色：

角色	谁	干嘛
Host（宿主）	AI 应用本体（Claude Desktop、Cursor、Zed……）	和你直接对话，决定要不要调工具
Client（客户端）	嵌在 Host 里的一个小模块	负责和某个具体的 Server 维持一条通信链路
Server（服务端）	工具/数据源的提供方（GitHub MCP、文件系统 MCP、数据库 MCP……）	真正干活的那一方，暴露能力给外面

它们之间用 JSON-RPC 2.0（一种轻量的远程过程调用协议）沟通，传输层可以是本地的 stdio（同一台机器跑两个进程），也可以是 HTTP（远程服务）。(来源)

一次完整的工具调用链路（小白版）：

启动握手：你打开 Claude Desktop（Host），它内部启动一个 MCP Client，去连一个 GitHub MCP Server。两边互相打招呼：”我支持哪些能力？” “你能给我提供哪些工具？” 这一步叫能力协商（capability negotiation）。
你提问：你对 Claude 说”看一下我 GitHub 上 last week 合并的 PR”。
模型决策：LLM 看了一眼可用工具列表，发现有个 github.list_pulls 工具能干这事，于是输出一个调用请求。
Client 转发：MCP Client 把请求按 JSON-RPC 格式打包，发给 GitHub MCP Server。
Server 执行：Server 真的去调 GitHub API，拿到数据，再原路回传。
结果回喂模型：Host 把结果塞回 LLM 的上下文里。
生成回答：LLM 用人话总结结果：”你上周合并了 3 个 PR，分别是……”

你 ──▶ Host (Claude Desktop)
           │
           ├── MCP Client A ◀──JSON-RPC──▶ MCP Server (GitHub)
           ├── MCP Client B ◀──JSON-RPC──▶ MCP Server (Filesystem)
           └── MCP Client C ◀──JSON-RPC──▶ MCP Server (Postgres)

为什么要”标准化”——USB-C 比喻再展开

在 MCP 出现之前，每接一个新工具都得为每个 AI 应用单独写一份胶水代码。N 个 AI 应用 × M 个工具 = N×M 份适配代码，社区累死也写不完。

MCP 把它变成 N + M：工具方只写一次 Server，所有兼容 MCP 的 AI 应用都能用。就像在 USB-C 普及之前，每个手机品牌都有自己的充电头，旅行带一堆线；普及之后，一根 USB-C 插哪都能用。

OpenAI、Google DeepMind 在 2025 年也跟进支持了 MCP，这意味着它从”Anthropic 自家协议”变成了事实标准。

AI 是怎么使用它的

在你日常使用 Claude Desktop / Cursor 时：

你在配置文件里加一行 MCP Server（比如装个 mcp-server-filesystem），重启应用。
AI 启动时自动通过 MCP Client 和 Server 握手，记下”哦，我现在多了 6 个文件操作的工具”。
之后你说”看下我桌面有啥”，模型就会自己输出 调用 list_directory("~/Desktop")，剩下的交给 MCP 链路。
你不需要写一行代码，就给 AI 接上了真实文件系统。

生活例子

以前每个电器都要配独家充电头，现在大家都用 USB-C，一根线走天下。MCP 就是给 AI 工具世界定的那根 USB-C。

小白常见误解

❌ “MCP 是一个工具。”
✅ MCP 是一个协议（一套规矩）。具体的工具叫 MCP Server。一个像”普通话”，一个像”说普通话的人”。

5. Skill（Claude Skills / Agent Skills）

一句话比喻：给实习生的”行业操作手册 + 工具箱”，平时摆在书架上，用到才翻。

是什么

Anthropic 在 2025 年 10 月 16 日 发布的能力，12 月 18 日 又升级成了跨平台的开放标准。一个 Skill 就是一个文件夹，里面有：

一个必备的 SKILL.md（YAML 头部写名字和简介，正文写指令）；
可选的脚本（Python / Bash 等，用来做”模型自己算不准”的活儿）；
可选的模板、参考文档、示例数据。(来源)

它是怎么工作的

Skill 的精髓叫 “渐进式披露”（progressive disclosure）——意思是”按需展开，不一上来就把全部细节塞进模型脑子”。

具体流程是这样：

目录扫描：Claude 启动时，会扫一眼所有 Skill 文件夹，但只读每个 SKILL.md 头部的 name 和 description 这两行。这一步只占很少 token，不会撑爆上下文。
挂在脑后：模型现在大致知道”我手上有这些技能：处理发票、生成 PPT、画流程图、写商业计划书……”但具体怎么做还没看。
匹配触发：你提问时，LLM 会基于你的话，去匹配哪个 Skill 的 description 最相关。比如你说”帮我把这张发票录入”，它脑子里”叮”一下——“发票处理 Skill！”。
完整加载：这时它才真的读 SKILL.md 的全文，把里面的步骤、模板、引用的脚本路径加载进上下文。
执行：按 Skill 里写的步骤干活。如果 Skill 里规定”用 extract_invoice.py 这个脚本提金额”，它就调那个脚本。
任务完事，淡出上下文。

书架上摆着 50 本手册     ──[只看封面]──▶  LLM 知道有这些技能
                                              │
你问"帮我做 X"  ────────────────────────────▶  匹配到第 7 本
                                              │
                                            [打开第 7 本读全文]
                                              │
                                            按手册执行

为什么这么设计？ 因为上下文窗口是有限且昂贵的资源。如果一上来就把 50 个 Skill 的全文塞进 prompt，模型既慢又贵还容易分心。”用到才翻”是对算力的尊重。

Skill vs MCP vs RAG：到底谁管啥？

这是新手最容易混的三件事，强行对比一下：

维度	Skill	MCP	RAG
本质	一份操作手册（教 AI 怎么做）	一个接口协议（教 AI 怎么连工具）	一种检索机制（给 AI 提供事实）
形式	Markdown 文件夹 + 脚本	JSON-RPC 通信规范	向量数据库 + 检索代码
解决的问题	“我怎么做这件事”	“我怎么调那个工具”	“这个事实哪里查”
是否需要外部服务	不需要	通常需要	通常需要

可以这么记：Skill 教方法，MCP 通工具，RAG 查事实。

AI 是怎么使用它的

在 Claude Code 里非常具体：

你在 ~/.claude/skills/ 或项目目录下放一个 report-writing Skill 文件夹。
启动 Claude Code 时它自动扫描，”挂在脑后”。
你说”按我的研究笔记模板写一篇笔记”，它匹配到 research-note Skill，读取里面的 SKILL.md 和 templates/research-note.md，按模板写。
写完文件保存到 Skill 里规定的路径。

整个过程你不用每次手动复制模板，也不用在每次对话里重述规则——Skill 替你”教过它一次”。

生活例子

你雇的实习生本来不会填发票，但你给了他一个 发票处理 Skill 文件夹——里面有公司报销规则、Excel 模板、一段处理 PDF 的脚本。下次你说”帮我报销这张发票”，他就自动翻开这本手册照做。

小白常见误解

❌ “Skill 把所有内容都加载进 prompt，会很贵。”
✅ 因为渐进式披露，没用到的 Skill 几乎不花 token，用到的也只加载相关片段。

6. AGENTS.md

一句话比喻：写给 AI 队友看的 README.md。

是什么

AGENTS.md 是一个开放格式：在项目根目录放一个名为 AGENTS.md 的 Markdown 文件，用大白话告诉 AI 编码助手——“这个项目怎么 build、怎么测、有哪些不能动的目录、提交信息要写成什么格式”。它不是替代 README.md（那是给人看的），而是补一份给”机器队友”看的说明书。(来源)

由 OpenAI Codex、Google Jules、Cursor、Amp（Sourcegraph）、Factory 等团队共同发起，目前由 Linux Foundation 旗下的 Agentic AI Foundation 托管。截至 2025 年底已有 6 万多个开源项目采用。(来源)

它是怎么工作的

非常朴素，没有协议、没有运行时——它就是一个 Markdown 文件。

你写一份 AGENTS.md 放在项目根目录。里面通常包含：
- 项目简介（一句话讲清这是干嘛的）
- 如何安装依赖、如何启动、如何测试
- 代码风格约定（缩进、命名、注释规范）
- “Agent 不要碰这些文件”的红线
- 提交信息（commit message）格式
AI Agent 启动时自动读取：Codex / Cursor / Gemini CLI / Aider 等工具检测到项目根有这个文件，就把它当作最高优先级的项目说明塞进 system prompt。
跨子目录覆盖：大型 monorepo 里可以在子目录里再放 AGENTS.md，子目录里的版本会覆盖根目录的——就像 git 的 .gitignore 一样可以分层。
AI 干活时持续遵守：之后 Agent 写的每行代码、跑的每条命令，都会先回头看一眼 AGENTS.md，确保不违反约定。

为什么需要一个”跨厂商统一”的格式

在 AGENTS.md 之前，每家 AI 编码工具都有自己一套：

工具	自己的项目说明文件
Anthropic Claude Code	`CLAUDE.md`
Cursor	`.cursorrules` / `.cursor/rules/`
Aider	`.aider.conf.yml` + `CONVENTIONS.md`
GitHub Copilot	`.github/copilot-instructions.md`
Continue	`.continuerc.json`

如果一个开源项目想”对所有 AI 编码助手都友好”，过去得维护 5 份内容差不多的文件。AGENTS.md 想做的就是让大家都读同一份，相当于”AI 编码工具圈的 EditorConfig”。

AI 是怎么使用它的

举个具体场景。一个新的开源仓库，根目录有 AGENTS.md，写着：

# AGENTS.md
- 包管理用 pnpm，不要用 npm/yarn
- 测试命令：pnpm test
- 提交信息用 Conventional Commits
- 不要修改 src/legacy/ 目录

你打开 Cursor，让它”加一个用户登录功能”。Cursor 启动时读了这个文件，于是它：

装依赖会自动用 pnpm add，不会用 npm install；
写完代码会主动跑 pnpm test；
提交信息会写 feat(auth): add user login；
即使你说”顺便重构一下 legacy 文件夹”，它也会停下来跟你确认——“AGENTS.md 不让动那里”。

和 CLAUDE.md 的关系：CLAUDE.md 是 Anthropic 的 Claude Code 专用约定文件，定位类似但只服务 Claude。AGENTS.md 想做跨厂商通用版本。短期内务实做法是项目里两份都放，或者让 CLAUDE.md 第一行写”请先阅读 AGENTS.md”。截至 2026 年初，Claude Code 还没有原生支持 AGENTS.md。

生活例子

你新招了 5 个不同公司外包的实习生（Cursor / Copilot / Codex / Gemini / Devin），与其挨个口头交代规矩，不如在前台贴一张《本项目作业守则》，谁来都先看一眼——这张守则就是 AGENTS.md。

小白常见误解

❌ “AGENTS.md 是一个新的协议或框架。”
✅ 它就是一份 Markdown 文件，没有任何运行时、没有 schema 强约束。它的”标准”只是约定大家把这种说明放在这个文件名里。极简但有效。

三、再补 7 个一定会撞见的配套名词

7. Prompt / Prompt Engineering（提示词 / 提示词工程）

比喻：给实习生下指令的艺术。

是什么：你输入给 AI 的那段话叫 Prompt。Prompt Engineering 就是研究”怎么把话说清楚，让 AI 干得好”。
它怎么工作：你的 Prompt 会和 System Prompt（如果有）拼在一起，整体被切成 token 喂给 LLM。模型把这段话当成”故事开头”，去预测”故事接下来该写什么”——所以你越能把开头写得像”一个专家在认真回答”，它接下来生成的也越像专家。
AI 怎么用：每一次对话都要 Prompt。即使你只打了”你好”，背后也会被裹上一层 System Prompt（”你是一个有用的 AI 助手……”）。Agent 内部每一步 Thought 也都是在拼新的 Prompt。
小例子：让 AI 翻译时加一句”请保留原文的幽默语气”，效果立刻不一样。”你是某领域资深编辑，请用 800 字、3 段式、面向初学者的口吻写……”和”帮我写篇文章”，结果天差地别。

8. Token / 上下文窗口（Context Window）

比喻：**实习生的”工作台面积”**——一次只能摊开这么多纸。

是什么：模型不是按”字”处理文本，而是按 token。中文里大约 1 个汉字 ≈ 1–2 token，英文 1 个单词 ≈ 1–1.5 token。一次对话能塞进多少 token，叫上下文窗口。
它怎么工作：输入先经过 Tokenizer（分词器） 切成 token 序列；模型处理完输出 token 序列；再被 Tokenizer 反过来拼成人类看的字。窗口超限时，最早的内容会被挤出去（或被自动总结后压缩）——这就是聊久了 AI 会”忘事”的原因。
AI 怎么用：所有上下文相关的事——对话历史、System Prompt、Skill 内容、RAG 检索结果、工具输出——都共享同一个窗口。窗口越大越能塞，但太大也烧钱、变慢、注意力分散。
生活例子：你让 AI 总结一本 30 万字的书，如果它的上下文窗口装不下，要么读不完，要么得分块读。今天主流模型从 8K 到 200 万 token 不等。

9. Tool Use / Function Calling（工具调用 / 函数调用）

比喻：让实习生会用打印机、订票网站、Excel。

是什么：让 LLM 不只是输出文字，而是输出一段结构化的”我想调用某个工具，参数是什么”。后台程序拿到这个请求，去真的调用，再把结果喂回模型。
它怎么工作：
1. 开发者在 Prompt 里告诉模型：”你有这些工具：weather(city)、send_email(to, body)……”
2. 模型生成时如果觉得需要工具，就吐一段特殊格式的 JSON，比如 {"tool": "weather", "args": {"city": "北京"}}，不是普通文本。
3. 程序拦截这段 JSON，真的去调 API，拿到返回值（27°C）。
4. 把返回值塞回模型上下文，模型再用人话回复你。
AI 怎么用：这是 Agent 真正”动手”的底层机制，也是 MCP 想要标准化的对象，更是 ReAct 循环里 “Action” 一步的具体落地形式。Agent 跑的每一步 Act，本质都是一次 Tool Use。
生活例子：你问”今天北京几度？”，模型不会”瞎猜”，而是输出调用 weather(city="北京")，后台跑完返回 27°C，模型再用人话回复你。

10. RAG（Retrieval-Augmented Generation，检索增强生成）

比喻：实习生开卷考试——遇到不会的，先去翻你给他的资料夹。

是什么：在让 LLM 回答之前，先从你的私有资料（PDF、内部文档、数据库）里”检索”出相关片段，塞进 Prompt 里再生成答案。
它怎么工作：
1. 建库（一次性）：把你所有文档切成小段，每段用一个嵌入模型转成”向量”（一串数字），存进向量数据库。
2. 检索（每次问问题）：你的问题也被转成向量，去库里找”距离最近”的几段。
3. 拼 Prompt：把这几段原文塞进 Prompt 里——“参考下面资料回答：[资料 1]……[资料 2]……问题：……”
4. 生成：LLM 基于这些资料回答，而不是凭记忆。
AI 怎么用：企业 AI 客服、内部知识库问答、法律/医疗助手几乎都是 RAG。它让通用模型秒变”懂你公司的人”。
生活例子：你公司的 HR 助手 AI——你问”产假多久”，它会先去检索员工手册第 12 章，再用人话回答你。

11. Hallucination（幻觉）

比喻：实习生不懂装懂，一脸认真地编了个不存在的答案。

是什么：模型生成了听起来很合理、但事实是错的、甚至彻底虚构的信息。比如编造一个不存在的论文标题、捏造一个 API 函数。
它怎么发生：LLM 的本质是”猜下一个字”，它优化的是”听起来连贯”，而不是”事实正确”。当训练里没见过你问的事，它不会说”不知道”——它会按统计规律编一个最像那个领域会出现的答案。
怎么应对：
1. 用 RAG 给它真实资料；
2. 让它显式引用来源；
3. 关键事实人工复核；
4. 用”如果你不确定，就回答 unknown”这种 Prompt 提示。
底线：别拿着模型张口就来的东西去吵架。重要事情查原始来源。

12. System Prompt / CLAUDE.md（系统提示词 / 项目约定文件）

比喻：实习生入职第一天的员工手册——他每次开工前都会复读一遍。

是什么：System Prompt 是开发者预先塞在每次对话最前面的”角色与规则”，用户看不见但模型一定看。CLAUDE.md 是 Claude Code 在项目目录里读取的约定文件，本质就是一份项目级 system prompt。Cursor 有 .cursorrules，OpenAI/Google 等阵营推 AGENTS.md，路数都一样。
它怎么工作：每次你按回车，系统在你看不见的地方拼出这样的结构：[System Prompt] + [CLAUDE.md 内容] + [对话历史] + [你这次的输入]，然后整体喂给模型。模型把 System Prompt 当成”最高指示”，会优先遵守。
AI 怎么用：避免你每次都重复说”请用中文””请别瞎编代码””这是个 Next.js 项目”。在 Claude Code 里，把规则写进 CLAUDE.md，每次新会话它都会自动遵守。
生活例子：你在 CLAUDE.md 里写”所有研究笔记都放进 research/notes/“，Claude Code 之后就会自觉照办。

13. Multimodal（多模态）

比喻：实习生不仅识字，还看得懂图、听得懂语音、看得懂视频。

是什么：模型能同时处理文字、图片、音频、视频等多种”模态”的输入/输出。
它怎么工作：图片/音频被一个专门的”编码器”转成和文字一样格式的 token 序列（叫 visual token / audio token），和文字 token 一起塞进同一个 Transformer 里。模型看不出”这是字还是图”——对它来说都是一串数字。所以它能一边看图一边读字一起推理。
AI 怎么用：这让 AI 能做的事从”读文档”扩展到”看截图调 bug””听会议录音做纪要””根据草图生成网页””看视频回答问题”。
生活例子：你给它截一张报错截图加一句”这是什么意思”，它能直接读图回答你。

四、全景图：这些名词怎么协同？

把它们想成一家”AI 公司”的组织结构：

             ┌──────────── Agent（一整个会做事的助理）─────────────┐
             │                                                       │
入职手册 →   │  System Prompt / CLAUDE.md / AGENTS.md                │
工作范式 →   │  ReAct（Thought → Action → Observation 循环）          │
专业 SOP →   │  Skill（按需翻开的操作手册 + 脚本）                    │
大脑   →     │  LLM（语言推理引擎）                                   │
桌面   →     │  Context Window（一次能摊开多少 token）                │
外挂资料库 → │  RAG（去检索你的私有资料）                             │
USB-C  →     │  MCP（连接外部工具的通用插座）                         │
手脚   →     │  Tool Use / Function Calling（真正去点按钮、调 API）   │
             │                                                       │
             └──── 你的指令（Prompt）→ 多模态输入 → 输出结果 ────────┘

一次完整任务的剧本（例：让 Claude Code 帮你写一篇研究笔记并发到 Obsidian）：

你输入 Prompt：”写一篇 AI 入门科普”。
Claude Code 启动时读了 CLAUDE.md 和 AGENTS.md（System Prompt），知道笔记要放进 research/notes/。
LLM 拆解任务，决定先做研究——这里它进入 Agent 的 ReAct 循环（Thought → Action → Observation）。
它通过 Tool Use 调用 WebSearch / WebFetch（这些底层就是 MCP 风格的工具调用）补充最新事实，避免 Hallucination。
写作过程中它发现自己有一个 research-note 的 Skill，就自动加载里面的模板和写作风格（渐进式披露）。
把结果写成 Markdown，再调一个 publish_to_obsidian 的 MCP Server 把笔记同步出去。
整个流程是一个 Agent 在 Context Window 内闭环执行；如果你给的是图片附件，Multimodal 能力让它能直接看图。

看懂这张图，你就看懂了今天 90% 的 AI 产品在卖什么。

五、术语速查表

名词	一句话理解	关键机制
LLM	AI 的”大脑”，会说话的语言模型	训练时学统计规律，推理时一字一字猜
Agent	LLM + 手脚 + 记忆 = 能做事的助理	在 ReAct 等范式下自主拆任务、调工具、看结果
ReAct	让 LLM “边想边做”的提示范式（Reasoning + Acting）	Thought → Action → Observation 循环
MCP	AI 工具世界的 USB-C 接口	Host + Client + Server，JSON-RPC 通信
Skill	按需加载的”专业操作手册文件夹”	渐进式披露，先扫简介，匹配后再读全文
AGENTS.md	写给 AI 队友看的项目说明书	根目录 Markdown，启动时自动读
Prompt	你给 AI 下的指令	拼进上下文，影响下一个 token 的概率
Token / 上下文窗口	AI 的”工作台面积”	分词器切，超限即丢
Tool Use	AI 真正去点按钮、调 API 的能力	模型吐 JSON，外部程序执行；ReAct 中的 Action
RAG	让 AI 开卷考试，基于你的资料回答	向量检索 + Prompt 拼接
Hallucination	AI 一本正经地胡说八道	概率预测的副作用
System Prompt / CLAUDE.md	入职第一天的员工手册	拼在每次对话最前面
Multimodal	同时看得懂字、图、声音、视频	各模态统一编码成 token

六、新手 FAQ

Q1：我现在该学哪个？
先把 Prompt 用熟，再玩一玩带工具的 Agent（Claude Code、Cursor、ChatGPT 的 GPTs/Agents 都行）。MCP / Skill / AGENTS.md 是给”想搭自己工作流”的人准备的，不必一开始就啃。

Q2：MCP 和 Function Calling 是不是一回事？
不是。Function Calling 是”模型怎么表达想调工具”，MCP 是”工具方怎么把自己暴露成一个标准服务”。一个是嘴，一个是接口。一次完整调用：模型用 Function Calling 表达意图 → MCP 协议把这个意图运到 Server → Server 干活回传。

Q3：Skill 和 RAG 区别？
Skill 是”教 AI 怎么做事”（流程 + 脚本），RAG 是”给 AI 提供事实”（检索资料）。一个偏过程，一个偏知识。完全可以同时用：在一个 Skill 里规定”遇到事实问题时调用 RAG”。

Q4：AGENTS.md 会不会取代 CLAUDE.md？
短期内两者并存。AGENTS.md 想做跨厂商通用规范，CLAUDE.md 是 Claude Code 的本地约定。务实做法：项目里两份都放，或者让 CLAUDE.md 一句话引用 AGENTS.md。

Q5：AI 真的能完全替代我吗？
现在的 Agent 像一个”很努力但偶尔犯糊涂的实习生”——交给它定义清晰、可验证的活儿很合适，关键决策还是要人把关。

Q6：所有这些机制听起来很复杂，普通用户为啥要懂？
因为懂了之后你提问会变厉害。比如知道有上下文窗口，你就会主动总结历史；知道有幻觉，你就会要求引用来源；知道有工具调用，你就会问”你能不能直接帮我跑一下”。

不确定性

AGENTS.md 的采用速度变化很快，”60,000 + 项目”的统计来自 2025 年底的二手报道，未来 6 个月的数字可能已经过时。
Claude Skills 自 2025-10 发布以来还在快速迭代，”渐进式披露”细节可能在 2026 年内继续演化，建议复核官方工程博客。
“Agent” 这个词在不同厂商语境下定义不一致，本文采用的是”LLM + 工具 + 规划”的常见工业界定义，与 ReAct 论文的原始定义一脉相承。
ReAct 论文发表于 2022 年 10 月，原始范式之后衍生出 Plan-and-Execute、Reflexion、Tree of Thoughts 等多种变体，本文只讲了最基础的 ReAct 循环。
LLM 训练阶段的描述做了大量简化，省略了 SFT、DPO、Constitutional AI 等具体技术；目标是让小白看懂大致流程，不是技术准确性。

后续行动

如果读者反馈良好，可以再写一篇”动手篇”：在自己电脑上配一个 Claude Code + 一个 MCP Server。
跟踪 AGENTS.md 在 2026 年是否被 Anthropic / Claude Code 原生支持。
对比一下 Claude Skills、ChatGPT 的 GPTs、Cursor Rules 三者的边界。
单独写一篇 ReAct 循环 vs Plan-and-Execute vs Reflexion 等 Agent 架构对比。