AI Research

AI 入门科普:从 LLM 到 Agent 的 13 个基础名词

2026-06-05 #mcp#ai#beginner#glossary#llm#agent

AI 入门科普:从 LLM 到 Agent 的 13 个基础名词

写给完全的 AI 小白。如果你只用过 ChatGPT 网页版,没有写过一行代码,这篇文章会用做菜、雇人、装修房子的比喻,把你最近一定会反复听到的术语一次讲明白。每个名词都会回答四件事:是什么、它在背后怎么工作、AI 是怎么用它的、生活里像什么

摘要

过去两年,AI 圈每隔几周就会”发明”一个新词:LLM、Agent、MCP、Skill、AGENTS.md……听起来都很硬核,其实它们组合起来在干同一件事——让会聊天的模型,慢慢长出手脚,能真正帮你干活。这篇笔记会先给每个名词一个比喻,再说”是什么 / 怎么工作 / AI 怎么用 / 一个生活例子”,最后用一段”全景图”把它们串起来。

研究问题

  • 一个完全没有技术背景的读者,需要掌握哪些名词,才能看懂今天 AI 圈的讨论?
  • LLM、Agent、MCP、Skill、AGENTS.md 这五个最核心的概念,它们在背后到底是怎么运作的
  • 这些名词是怎么协同工作的?有没有一张”全景图”?

一、先建立一个直觉:AI 现在长什么样?

想象你雇了一个超级聪明但完全不熟悉你家情况的实习生

  • 他读过几乎所有公开的书和网页(这就是 LLM);
  • 但他只会”说”,不会动手——你让他订机票,他只能告诉你”建议你打开携程”;
  • 于是大家给他配了手脚(工具调用)说明书(Prompt / Skill / AGENTS.md)外接资料库(RAG)统一插座(MCP)
  • 配齐之后,他从一个”能说会道的实习生”变成了一个”能独立完成任务的助理”——这就是 Agent

下面我们逐个拆开看,并且重点讲它们在背后是怎么转起来的


二、6 个核心名词(你点名要的)

1. LLM(Large Language Model,大语言模型)

一句话比喻:一个读完了半个互联网、记忆力惊人但有点爱编故事的实习生

是什么

LLM 是用海量文本训练出来的神经网络。它的本质技能其实只有一个:给一段文字,预测最有可能出现的下一个词。听起来朴素得离谱,但当你把这个本事放大到几千亿参数 + 万亿级别的训练文本,就涌现出写文章、写代码、做翻译、做总结、甚至做推理的能力。ChatGPT、Claude、Gemini、DeepSeek 背后都是 LLM。

它是怎么工作的

可以把 LLM 的一生粗暴地拆成两段:练成它用它

(1) 练成它(训练阶段)

  • 第一步:预训练(Pre-training)——把互联网上能拿到的文本(书籍、网页、代码、Wikipedia……)一股脑灌给模型,让它做一件事:盖住下一个词,让模型猜。猜错就调一调内部的”参数旋钮”,几千亿次循环之后,它就把语言里的统计规律压进了自己的几千亿参数里。
  • 第二步:后训练 / 对齐(Post-training / RLHF)——预训练完的模型像个 18 岁的天才野孩子,啥都懂但说话没分寸。这一步用人类标注员示范”什么是好答案”、”什么是不该说的话”,再用强化学习的办法(RLHF:Reinforcement Learning from Human Feedback)让它学会”听人话”、”礼貌”、”拒绝有害请求”。
  • 结果:你日常用的 ChatGPT、Claude,都是经过了对齐的”礼貌版”模型,不是赤裸裸的预训练模型。

(2) 用它(推理阶段)

这是你每按一次回车实际发生的事:

  1. 切 Token:你输入的”今天天气怎么样?”会被先切成几个 token(大约 6–8 个)。Token 是模型的”最小语言单位”,可能是一个汉字、半个汉字、一个英文单词或者几个字母。
  2. 算注意力:模型把这些 token 喂进 Transformer 网络,每一层都让 token 之间互相”打量一下对方”(这就是 Attention 注意力机制),算出每个位置应该重视哪些上下文。
  3. 预测下一个 token:跑完所有层,模型输出一个概率表——“下一个 token 是『晴』的概率 32%,『阴』12%,『要』8%……”。
  4. 采样:按这个概率挑一个词(不一定挑最高的,留一点随机性才显得”有灵气”)。
  5. 拼起来再来一遍:把刚挑出来的 token 接到输入末尾,重新跑一遍 1–4,再吐一个 token。如此循环,直到吐出”句号 + 结束符”。

所以你看到 AI 回答是一个字一个字蹦出来的,那不是为了好看,是它真的在一字一字地猜

AI 是怎么使用它的

LLM 是其他所有名词背后的”发动机”。在一次完整的 AI 对话里:

  • 它负责理解你说了什么;
  • 它负责决策——要不要调工具?调哪个?参数填什么?
  • 它负责生成——把工具结果或者自己脑子里的知识写成人话回给你。

任何 Agent、Skill、MCP 调用,最后都得回到 LLM 这里”过一遍脑子”。LLM 不工作,整套系统就是死的。

生活例子

你问它”帮我写一封请假邮件”,它能秒出一份像样的邮件——因为它在训练时见过几百万封邮件长什么样,知道”尊敬的 X 总”后面大概率跟”由于……特此申请……”。

小白常见误解

❌ “LLM 是从一个数据库里查答案。”
✅ 它没有数据库,知识是被”压缩”进了几千亿个参数。所以它会忘事、会编、会过时——这是机制决定的,不是 bug。


2. Agent(智能体)

一句话比喻:**给实习生配上手机、键盘和门禁卡——他从”建议你做什么”变成”我去帮你做了”**。

是什么

Agent 是以 LLM 为”大脑”,再加上工具(手脚)+ 记忆(笔记本)+ 规划(行程表)+ 反思(复盘)的一整套系统。它的关键特征是自主性:你给一个目标,它自己拆任务、自己调工具、自己看结果、自己决定下一步该干嘛。

它是怎么工作的

经典做法叫 ReAct 循环(来自 Yao 等人 2022 年的同名论文,Reasoning + Acting 的合体),后来演化成各家版本,但骨架都是一样的:”想一下 → 做一下 → 看一下结果 → 再想一下”。(来源)

一次典型的 Agent 跑动是这样:

  1. 接到目标:用户说”帮我把这个月的发票汇总到一张 Excel”。
  2. Thought(想):LLM 在内部”自言自语”——“我需要先找发票文件夹,再识别每张 PDF 的金额和日期,最后写进 Excel”。
  3. Act(做):从可用工具列表里挑一个,输出 调用 list_files(path="~/Downloads/发票")
  4. Observation(看):执行环境真的去列文件,把结果(”一共 23 个 PDF”)回喂给 LLM。
  5. 再 Thought:LLM 看到 23 个文件,决定下一步是”逐个读取并提取金额”。
  6. 再 Act → 再 Observation → 再 Thought……如此循环。
  7. 完成 / 反思:要么任务搞定就回复你,要么发现走不通就回退一步重试。

除了这个主循环,一个完整的 Agent 一般还有几个组件:

组件 作用 类比
规划 (Planning) 把大目标拆成小步骤 项目经理列 todo
工具使用 (Tool Use) 真正去点按钮、调 API 实习生的手脚
记忆 (Memory) 短期:当前对话;长期:跨会话存储 工作笔记本 + 备忘录
反思 (Reflection) 失败后复盘,下次别再踩坑 周会复盘

单 Agent vs 多 Agent

  • 单 Agent:一个”全能实习生”自己干完所有活。简单任务够用。
  • 多 Agent:好几个 Agent 各管一摊,互相对话协作——比如一个负责调研、一个负责写作、一个负责审稿。任务复杂时效果更好,但也更容易”集体跑偏”。

AI 是怎么使用它的

你今天用到的”高级 AI 产品”基本都是 Agent 形态:

  • Claude Code / Cursor / Codex:编码 Agent。你说”修这个 bug”,它会自己读代码、跑测试、改文件、再跑测试。
  • ChatGPT 的 Agent 模式 / Operator:浏览器 Agent。你说”帮我订明早 8 点北京飞上海的票”,它真的去打开浏览器一步步操作。
  • Devin、AutoGPT 类:长任务 Agent,可以连续跑几小时。

在产品语境里,”Agent” 这个词的含金量取决于它能自主跑多少步而不出错。能跑 50 步的 Agent 比能跑 5 步的强一个量级。

生活例子

你说”帮我整理一下下载文件夹,把发票归到一起,发一份到我邮箱”。Agent 会列出步骤 → 读文件 → 识别发票 → 移动到子文件夹 → 调邮件接口发送。中途出错还会自己重试。(来源)

小白常见误解

❌ “Agent 是一种新模型。”
✅ Agent 不是模型,它是一套用 LLM 搭出来的系统。同一个 Claude 模型,套上不同的 Agent 框架,能力天差地别。


3. ReAct(Reasoning + Acting,”边想边做”的范式)

一句话比喻:侦探破案——先在脑子里推理一下,再去现场取证;看到新线索,回头修推理;如此循环直到结案。

是什么

ReAct 是 Yao et al. 在 2022 年 10 月发表的论文《ReAct: Synergizing Reasoning and Acting in Language Models》提出的范式(arXiv:2210.03629)。它不是一个软件、不是一个框架、也不是一个产品,而是一种让 LLM 在解决任务时”边想边做”的提示词模板。它的核心主张:让模型只做”思维链 (Chain-of-Thought)”或者只做”调工具”都不够,把这两件事交错穿插起来,模型解决复杂任务的能力会显著上一个台阶。(来源)

它是怎么工作的

ReAct 把 Agent 每一步都拆成三个固定环节,循环执行:

1
Thought(想)→ Action(做)→ Observation(看到结果)→ Thought(再想)→ Action → Observation → ... → Final Answer
  • Thought:模型用自然语言写下”我现在打算干嘛、为什么这么干”。这一步纯文字,没有副作用,主要是给自己理清思路。
  • Action:模型输出一个结构化的工具调用(如 search("上海 今天 天气"))。
  • Observation:外部系统真的去执行 Action,把返回值(如 “上海多云转阵雨,最高 28°C”)回喂给模型。
  • 拿到 Observation 后,模型基于新信息再写一段 Thought,决定下一步——这就形成了闭环。

举个生活化的例子——你对 AI 说”帮我查一下今天上海天气,决定要不要带伞“:

  1. Thought 1:用户想知道是否需要带伞,关键是看今天上海会不会下雨。我应该先查天气。
  2. Action 1get_weather(city="上海", date="today")
  3. Observation 1{"condition": "多云转阵雨", "rain_probability": 0.7, "temp": 28}
  4. Thought 2:降雨概率 70%,肯定要带伞;多云转阵雨意味着白天可能突然下,折叠伞最合适。
  5. Action 2reply_to_user("今天上海多云转阵雨、降雨概率 70%,建议带把折叠伞。")
  6. 结束

ReAct vs 纯 CoT(Chain-of-Thought)

新手最容易混的就是 ReAct 和 CoT:

范式 模型干嘛 局限
纯 CoT(思维链) 只在脑子里推理,不接触外界 遇到”今天天气””昨天股价”这种实时事实只能瞎猜
纯 Tool Use(不带显式 Thought) 直接吐工具调用,省掉推理 简单任务可以,复杂任务一旦中间出岔就不会自我纠错
ReAct = CoT + Tool Use 既显式推理,又能动手验证,还能根据观察修正下一步 多花一些 token,但鲁棒性显著更好

ReAct 论文在 HotpotQA、ALFWorld 等基准上的实验显示,它明显优于上面两种”单方案”。

AI 是怎么使用它的

虽然 ReAct 本身只是一种”提示模板”,但它已经成了几乎所有现代 Agent 框架的默认骨架

  • LangChain / LlamaIndex 早期的 Agent 实现就是直接照搬 ReAct prompt。
  • AutoGPT、BabyAGI 等”长任务 Agent”把 ReAct 循环跑得更长、加上记忆和反思。
  • Claude / GPT 的原生 tool use——你看到模型一边输出”我需要先查一下…”一边发起 search(...) 调用——本质就是 ReAct 的工程化变体,只是把 Thought / Action 字段做成了模型 API 的结构化输出,不再依赖纯文本拼接。

可以这么说:今天 Agent 圈的”标准动作”,绝大多数都站在 ReAct 这块基石上

生活例子

把 ReAct 比作侦探破案:先在脑子里推理(Thought:”凶器可能是钝器”)→ 去现场取证(Action:检查屋子)→ 看到新线索(Observation:地上有玻璃碎片)→ 再推理(Thought:”那应该是花瓶”)→ 再行动(Action:去查花瓶来源)……破不出来就回头修推理,直到锁定真相。一个好的侦探不是只动脑、也不是瞎跑腿,而是脑和腿轮流上

小白常见误解

❌ “ReAct 是某个软件 / 库 / 产品。”
✅ 它是一种提示词模板 / 推理范式。任何 LLM 配上”Thought → Action → Observation”的提示结构,都可以跑 ReAct——你今天用 Claude / GPT 的工具调用,背后跑的就是它的近亲。


4. MCP(Model Context Protocol,模型上下文协议)

一句话比喻:AI 世界的 USB-C 接口

是什么

MCP 是 Anthropic 在 2024 年 11 月 25 日 推出的开源协议,专门用来标准化”AI 应用 ↔ 外部工具/数据源”之间的连接方式。它定义了一套”接线规则”,让任何 AI 应用都能用同一种方式接任何工具。(来源)

它是怎么工作的

MCP 把世界划成三个角色:

角色 干嘛
Host(宿主) AI 应用本体(Claude Desktop、Cursor、Zed……) 和你直接对话,决定要不要调工具
Client(客户端) 嵌在 Host 里的一个小模块 负责和某个具体的 Server 维持一条通信链路
Server(服务端) 工具/数据源的提供方(GitHub MCP、文件系统 MCP、数据库 MCP……) 真正干活的那一方,暴露能力给外面

它们之间用 JSON-RPC 2.0(一种轻量的远程过程调用协议)沟通,传输层可以是本地的 stdio(同一台机器跑两个进程),也可以是 HTTP(远程服务)。(来源)

一次完整的工具调用链路(小白版):

  1. 启动握手:你打开 Claude Desktop(Host),它内部启动一个 MCP Client,去连一个 GitHub MCP Server。两边互相打招呼:”我支持哪些能力?” “你能给我提供哪些工具?” 这一步叫能力协商(capability negotiation)
  2. 你提问:你对 Claude 说”看一下我 GitHub 上 last week 合并的 PR”。
  3. 模型决策:LLM 看了一眼可用工具列表,发现有个 github.list_pulls 工具能干这事,于是输出一个调用请求。
  4. Client 转发:MCP Client 把请求按 JSON-RPC 格式打包,发给 GitHub MCP Server。
  5. Server 执行:Server 真的去调 GitHub API,拿到数据,再原路回传。
  6. 结果回喂模型:Host 把结果塞回 LLM 的上下文里。
  7. 生成回答:LLM 用人话总结结果:”你上周合并了 3 个 PR,分别是……”
1
2
3
4
5
你 ──▶ Host (Claude Desktop)

├── MCP Client A ◀──JSON-RPC──▶ MCP Server (GitHub)
├── MCP Client B ◀──JSON-RPC──▶ MCP Server (Filesystem)
└── MCP Client C ◀──JSON-RPC──▶ MCP Server (Postgres)

为什么要”标准化”——USB-C 比喻再展开

在 MCP 出现之前,每接一个新工具都得为每个 AI 应用单独写一份胶水代码。N 个 AI 应用 × M 个工具 = N×M 份适配代码,社区累死也写不完。

MCP 把它变成 N + M:工具方只写一次 Server,所有兼容 MCP 的 AI 应用都能用。就像在 USB-C 普及之前,每个手机品牌都有自己的充电头,旅行带一堆线;普及之后,一根 USB-C 插哪都能用。

OpenAI、Google DeepMind 在 2025 年也跟进支持了 MCP,这意味着它从”Anthropic 自家协议”变成了事实标准

AI 是怎么使用它的

在你日常使用 Claude Desktop / Cursor 时:

  • 你在配置文件里加一行 MCP Server(比如装个 mcp-server-filesystem),重启应用。
  • AI 启动时自动通过 MCP Client 和 Server 握手,记下”哦,我现在多了 6 个文件操作的工具”。
  • 之后你说”看下我桌面有啥”,模型就会自己输出 调用 list_directory("~/Desktop"),剩下的交给 MCP 链路。
  • 你不需要写一行代码,就给 AI 接上了真实文件系统。

生活例子

以前每个电器都要配独家充电头,现在大家都用 USB-C,一根线走天下。MCP 就是给 AI 工具世界定的那根 USB-C。

小白常见误解

❌ “MCP 是一个工具。”
✅ MCP 是一个协议(一套规矩)。具体的工具叫 MCP Server。一个像”普通话”,一个像”说普通话的人”。


5. Skill(Claude Skills / Agent Skills)

一句话比喻:给实习生的”行业操作手册 + 工具箱”,平时摆在书架上,用到才翻

是什么

Anthropic 在 2025 年 10 月 16 日 发布的能力,12 月 18 日 又升级成了跨平台的开放标准。一个 Skill 就是一个文件夹,里面有:

  • 一个必备的 SKILL.md(YAML 头部写名字和简介,正文写指令);
  • 可选的脚本(Python / Bash 等,用来做”模型自己算不准”的活儿);
  • 可选的模板、参考文档、示例数据。(来源)

它是怎么工作的

Skill 的精髓叫 “渐进式披露”(progressive disclosure)——意思是”按需展开,不一上来就把全部细节塞进模型脑子”。

具体流程是这样:

  1. 目录扫描:Claude 启动时,会扫一眼所有 Skill 文件夹,但只读每个 SKILL.md 头部的 namedescription 这两行。这一步只占很少 token,不会撑爆上下文。
  2. 挂在脑后:模型现在大致知道”我手上有这些技能:处理发票、生成 PPT、画流程图、写商业计划书……”但具体怎么做还没看。
  3. 匹配触发:你提问时,LLM 会基于你的话,去匹配哪个 Skill 的 description 最相关。比如你说”帮我把这张发票录入”,它脑子里”叮”一下——“发票处理 Skill!”。
  4. 完整加载:这时它才真的读 SKILL.md 的全文,把里面的步骤、模板、引用的脚本路径加载进上下文。
  5. 执行:按 Skill 里写的步骤干活。如果 Skill 里规定”用 extract_invoice.py 这个脚本提金额”,它就调那个脚本。
  6. 任务完事,淡出上下文
1
2
3
4
5
6
7
书架上摆着 50 本手册     ──[只看封面]──▶  LLM 知道有这些技能

你问"帮我做 X" ────────────────────────────▶ 匹配到第 7 本

[打开第 7 本读全文]

按手册执行

为什么这么设计? 因为上下文窗口是有限且昂贵的资源。如果一上来就把 50 个 Skill 的全文塞进 prompt,模型既慢又贵还容易分心。”用到才翻”是对算力的尊重。

Skill vs MCP vs RAG:到底谁管啥?

这是新手最容易混的三件事,强行对比一下:

维度 Skill MCP RAG
本质 一份操作手册(教 AI 怎么做) 一个接口协议(教 AI 怎么连工具) 一种检索机制(给 AI 提供事实)
形式 Markdown 文件夹 + 脚本 JSON-RPC 通信规范 向量数据库 + 检索代码
解决的问题 “我怎么做这件事” “我怎么调那个工具” “这个事实哪里查”
是否需要外部服务 不需要 通常需要 通常需要

可以这么记:Skill 教方法,MCP 通工具,RAG 查事实

AI 是怎么使用它的

在 Claude Code 里非常具体:

  • 你在 ~/.claude/skills/ 或项目目录下放一个 report-writing Skill 文件夹。
  • 启动 Claude Code 时它自动扫描,”挂在脑后”。
  • 你说”按我的研究笔记模板写一篇笔记”,它匹配到 research-note Skill,读取里面的 SKILL.mdtemplates/research-note.md,按模板写。
  • 写完文件保存到 Skill 里规定的路径。

整个过程你不用每次手动复制模板,也不用在每次对话里重述规则——Skill 替你”教过它一次”。

生活例子

你雇的实习生本来不会填发票,但你给了他一个 发票处理 Skill 文件夹——里面有公司报销规则、Excel 模板、一段处理 PDF 的脚本。下次你说”帮我报销这张发票”,他就自动翻开这本手册照做。

小白常见误解

❌ “Skill 把所有内容都加载进 prompt,会很贵。”
✅ 因为渐进式披露,没用到的 Skill 几乎不花 token,用到的也只加载相关片段。


6. AGENTS.md

一句话比喻:写给 AI 队友看的 README.md

是什么

AGENTS.md 是一个开放格式:在项目根目录放一个名为 AGENTS.md 的 Markdown 文件,用大白话告诉 AI 编码助手——“这个项目怎么 build、怎么测、有哪些不能动的目录、提交信息要写成什么格式”。它不是替代 README.md(那是给人看的),而是补一份给”机器队友”看的说明书。(来源)

由 OpenAI Codex、Google Jules、Cursor、Amp(Sourcegraph)、Factory 等团队共同发起,目前由 Linux Foundation 旗下的 Agentic AI Foundation 托管。截至 2025 年底已有 6 万多个开源项目采用。(来源)

它是怎么工作的

非常朴素,没有协议、没有运行时——它就是一个 Markdown 文件。

  1. 你写一份 AGENTS.md 放在项目根目录。里面通常包含:
    • 项目简介(一句话讲清这是干嘛的)
    • 如何安装依赖、如何启动、如何测试
    • 代码风格约定(缩进、命名、注释规范)
    • “Agent 不要碰这些文件”的红线
    • 提交信息(commit message)格式
  2. AI Agent 启动时自动读取:Codex / Cursor / Gemini CLI / Aider 等工具检测到项目根有这个文件,就把它当作最高优先级的项目说明塞进 system prompt。
  3. 跨子目录覆盖:大型 monorepo 里可以在子目录里再放 AGENTS.md,子目录里的版本会覆盖根目录的——就像 git 的 .gitignore 一样可以分层。
  4. AI 干活时持续遵守:之后 Agent 写的每行代码、跑的每条命令,都会先回头看一眼 AGENTS.md,确保不违反约定。

为什么需要一个”跨厂商统一”的格式

在 AGENTS.md 之前,每家 AI 编码工具都有自己一套:

工具 自己的项目说明文件
Anthropic Claude Code CLAUDE.md
Cursor .cursorrules / .cursor/rules/
Aider .aider.conf.yml + CONVENTIONS.md
GitHub Copilot .github/copilot-instructions.md
Continue .continuerc.json

如果一个开源项目想”对所有 AI 编码助手都友好”,过去得维护 5 份内容差不多的文件。AGENTS.md 想做的就是让大家都读同一份,相当于”AI 编码工具圈的 EditorConfig”。

AI 是怎么使用它的

举个具体场景。一个新的开源仓库,根目录有 AGENTS.md,写着:

1
2
3
4
5
# AGENTS.md
- 包管理用 pnpm,不要用 npm/yarn
- 测试命令:pnpm test
- 提交信息用 Conventional Commits
- 不要修改 src/legacy/ 目录

你打开 Cursor,让它”加一个用户登录功能”。Cursor 启动时读了这个文件,于是它:

  • 装依赖会自动用 pnpm add,不会用 npm install
  • 写完代码会主动跑 pnpm test
  • 提交信息会写 feat(auth): add user login
  • 即使你说”顺便重构一下 legacy 文件夹”,它也会停下来跟你确认——“AGENTS.md 不让动那里”。

和 CLAUDE.md 的关系CLAUDE.md 是 Anthropic 的 Claude Code 专用约定文件,定位类似但只服务 Claude。AGENTS.md 想做跨厂商通用版本。短期内务实做法是项目里两份都放,或者让 CLAUDE.md 第一行写”请先阅读 AGENTS.md”。截至 2026 年初,Claude Code 还没有原生支持 AGENTS.md。

生活例子

你新招了 5 个不同公司外包的实习生(Cursor / Copilot / Codex / Gemini / Devin),与其挨个口头交代规矩,不如在前台贴一张《本项目作业守则》,谁来都先看一眼——这张守则就是 AGENTS.md

小白常见误解

❌ “AGENTS.md 是一个新的协议或框架。”
✅ 它就是一份 Markdown 文件,没有任何运行时、没有 schema 强约束。它的”标准”只是约定大家把这种说明放在这个文件名里。极简但有效。


三、再补 7 个一定会撞见的配套名词

7. Prompt / Prompt Engineering(提示词 / 提示词工程)

比喻:给实习生下指令的艺术

  • 是什么:你输入给 AI 的那段话叫 Prompt。Prompt Engineering 就是研究”怎么把话说清楚,让 AI 干得好”。
  • 它怎么工作:你的 Prompt 会和 System Prompt(如果有)拼在一起,整体被切成 token 喂给 LLM。模型把这段话当成”故事开头”,去预测”故事接下来该写什么”——所以你越能把开头写得像”一个专家在认真回答”,它接下来生成的也越像专家。
  • AI 怎么用:每一次对话都要 Prompt。即使你只打了”你好”,背后也会被裹上一层 System Prompt(”你是一个有用的 AI 助手……”)。Agent 内部每一步 Thought 也都是在拼新的 Prompt。
  • 小例子:让 AI 翻译时加一句”请保留原文的幽默语气”,效果立刻不一样。”你是某领域资深编辑,请用 800 字、3 段式、面向初学者的口吻写……”和”帮我写篇文章”,结果天差地别。

8. Token / 上下文窗口(Context Window)

比喻:**实习生的”工作台面积”**——一次只能摊开这么多纸。

  • 是什么:模型不是按”字”处理文本,而是按 token。中文里大约 1 个汉字 ≈ 1–2 token,英文 1 个单词 ≈ 1–1.5 token。一次对话能塞进多少 token,叫上下文窗口
  • 它怎么工作:输入先经过 Tokenizer(分词器) 切成 token 序列;模型处理完输出 token 序列;再被 Tokenizer 反过来拼成人类看的字。窗口超限时,最早的内容会被挤出去(或被自动总结后压缩)——这就是聊久了 AI 会”忘事”的原因。
  • AI 怎么用:所有上下文相关的事——对话历史、System Prompt、Skill 内容、RAG 检索结果、工具输出——都共享同一个窗口。窗口越大越能塞,但太大也烧钱、变慢、注意力分散
  • 生活例子:你让 AI 总结一本 30 万字的书,如果它的上下文窗口装不下,要么读不完,要么得分块读。今天主流模型从 8K 到 200 万 token 不等。

9. Tool Use / Function Calling(工具调用 / 函数调用)

比喻:让实习生会用打印机、订票网站、Excel

  • 是什么:让 LLM 不只是输出文字,而是输出一段结构化的”我想调用某个工具,参数是什么”。后台程序拿到这个请求,去真的调用,再把结果喂回模型。
  • 它怎么工作
    1. 开发者在 Prompt 里告诉模型:”你有这些工具:weather(city)send_email(to, body)……”
    2. 模型生成时如果觉得需要工具,就吐一段特殊格式的 JSON,比如 {"tool": "weather", "args": {"city": "北京"}}不是普通文本
    3. 程序拦截这段 JSON,真的去调 API,拿到返回值(27°C)。
    4. 把返回值塞回模型上下文,模型再用人话回复你。
  • AI 怎么用:这是 Agent 真正”动手”的底层机制,也是 MCP 想要标准化的对象,更是 ReAct 循环里 “Action” 一步的具体落地形式。Agent 跑的每一步 Act,本质都是一次 Tool Use。
  • 生活例子:你问”今天北京几度?”,模型不会”瞎猜”,而是输出调用 weather(city="北京"),后台跑完返回 27°C,模型再用人话回复你。

10. RAG(Retrieval-Augmented Generation,检索增强生成)

比喻:实习生开卷考试——遇到不会的,先去翻你给他的资料夹。

  • 是什么:在让 LLM 回答之前,先从你的私有资料(PDF、内部文档、数据库)里”检索”出相关片段,塞进 Prompt 里再生成答案。
  • 它怎么工作
    1. 建库(一次性):把你所有文档切成小段,每段用一个嵌入模型转成”向量”(一串数字),存进向量数据库。
    2. 检索(每次问问题):你的问题也被转成向量,去库里找”距离最近”的几段。
    3. 拼 Prompt:把这几段原文塞进 Prompt 里——“参考下面资料回答:[资料 1]……[资料 2]……问题:……”
    4. 生成:LLM 基于这些资料回答,而不是凭记忆。
  • AI 怎么用:企业 AI 客服、内部知识库问答、法律/医疗助手几乎都是 RAG。它让通用模型秒变”懂你公司的人”。
  • 生活例子:你公司的 HR 助手 AI——你问”产假多久”,它会先去检索员工手册第 12 章,再用人话回答你。

11. Hallucination(幻觉)

比喻:实习生不懂装懂,一脸认真地编了个不存在的答案。

  • 是什么:模型生成了听起来很合理、但事实是错的、甚至彻底虚构的信息。比如编造一个不存在的论文标题、捏造一个 API 函数。
  • 它怎么发生:LLM 的本质是”猜下一个字”,它优化的是”听起来连贯”,而不是”事实正确”。当训练里没见过你问的事,它不会说”不知道”——它会按统计规律编一个最像那个领域会出现的答案
  • 怎么应对
    1. 用 RAG 给它真实资料;
    2. 让它显式引用来源;
    3. 关键事实人工复核;
    4. 用”如果你不确定,就回答 unknown”这种 Prompt 提示。
  • 底线别拿着模型张口就来的东西去吵架。重要事情查原始来源。

12. System Prompt / CLAUDE.md(系统提示词 / 项目约定文件)

比喻:实习生入职第一天的员工手册——他每次开工前都会复读一遍。

  • 是什么:System Prompt 是开发者预先塞在每次对话最前面的”角色与规则”,用户看不见但模型一定看。CLAUDE.md 是 Claude Code 在项目目录里读取的约定文件,本质就是一份项目级 system prompt。Cursor 有 .cursorrules,OpenAI/Google 等阵营推 AGENTS.md,路数都一样。
  • 它怎么工作:每次你按回车,系统在你看不见的地方拼出这样的结构:[System Prompt] + [CLAUDE.md 内容] + [对话历史] + [你这次的输入],然后整体喂给模型。模型把 System Prompt 当成”最高指示”,会优先遵守。
  • AI 怎么用:避免你每次都重复说”请用中文””请别瞎编代码””这是个 Next.js 项目”。在 Claude Code 里,把规则写进 CLAUDE.md,每次新会话它都会自动遵守。
  • 生活例子:你在 CLAUDE.md 里写”所有研究笔记都放进 research/notes/“,Claude Code 之后就会自觉照办。

13. Multimodal(多模态)

比喻:实习生不仅识字,还看得懂图、听得懂语音、看得懂视频

  • 是什么:模型能同时处理文字、图片、音频、视频等多种”模态”的输入/输出。
  • 它怎么工作:图片/音频被一个专门的”编码器”转成和文字一样格式的 token 序列(叫 visual token / audio token),和文字 token 一起塞进同一个 Transformer 里。模型看不出”这是字还是图”——对它来说都是一串数字。所以它能一边看图一边读字一起推理。
  • AI 怎么用:这让 AI 能做的事从”读文档”扩展到”看截图调 bug””听会议录音做纪要””根据草图生成网页””看视频回答问题”。
  • 生活例子:你给它截一张报错截图加一句”这是什么意思”,它能直接读图回答你。

四、全景图:这些名词怎么协同?

把它们想成一家”AI 公司”的组织结构:

1
2
3
4
5
6
7
8
9
10
11
12
             ┌──────────── Agent(一整个会做事的助理)─────────────┐
│ │
入职手册 → │ System Prompt / CLAUDE.md / AGENTS.md │
工作范式 → │ ReAct(Thought → Action → Observation 循环) │
专业 SOP → │ Skill(按需翻开的操作手册 + 脚本) │
大脑 → │ LLM(语言推理引擎) │
桌面 → │ Context Window(一次能摊开多少 token) │
外挂资料库 → │ RAG(去检索你的私有资料) │
USB-C → │ MCP(连接外部工具的通用插座) │
手脚 → │ Tool Use / Function Calling(真正去点按钮、调 API) │
│ │
└──── 你的指令(Prompt)→ 多模态输入 → 输出结果 ────────┘

一次完整任务的剧本(例:让 Claude Code 帮你写一篇研究笔记并发到 Obsidian):

  1. 你输入 Prompt:”写一篇 AI 入门科普”。
  2. Claude Code 启动时读了 CLAUDE.mdAGENTS.mdSystem Prompt),知道笔记要放进 research/notes/
  3. LLM 拆解任务,决定先做研究——这里它进入 AgentReAct 循环(Thought → Action → Observation)。
  4. 它通过 Tool Use 调用 WebSearch / WebFetch(这些底层就是 MCP 风格的工具调用)补充最新事实,避免 Hallucination
  5. 写作过程中它发现自己有一个 research-noteSkill,就自动加载里面的模板和写作风格(渐进式披露)。
  6. 把结果写成 Markdown,再调一个 publish_to_obsidianMCP Server 把笔记同步出去。
  7. 整个流程是一个 AgentContext Window 内闭环执行;如果你给的是图片附件,Multimodal 能力让它能直接看图。

看懂这张图,你就看懂了今天 90% 的 AI 产品在卖什么。


五、术语速查表

名词 一句话理解 关键机制
LLM AI 的”大脑”,会说话的语言模型 训练时学统计规律,推理时一字一字猜
Agent LLM + 手脚 + 记忆 = 能做事的助理 在 ReAct 等范式下自主拆任务、调工具、看结果
ReAct 让 LLM “边想边做”的提示范式(Reasoning + Acting) Thought → Action → Observation 循环
MCP AI 工具世界的 USB-C 接口 Host + Client + Server,JSON-RPC 通信
Skill 按需加载的”专业操作手册文件夹” 渐进式披露,先扫简介,匹配后再读全文
AGENTS.md 写给 AI 队友看的项目说明书 根目录 Markdown,启动时自动读
Prompt 你给 AI 下的指令 拼进上下文,影响下一个 token 的概率
Token / 上下文窗口 AI 的”工作台面积” 分词器切,超限即丢
Tool Use AI 真正去点按钮、调 API 的能力 模型吐 JSON,外部程序执行;ReAct 中的 Action
RAG 让 AI 开卷考试,基于你的资料回答 向量检索 + Prompt 拼接
Hallucination AI 一本正经地胡说八道 概率预测的副作用
System Prompt / CLAUDE.md 入职第一天的员工手册 拼在每次对话最前面
Multimodal 同时看得懂字、图、声音、视频 各模态统一编码成 token

六、新手 FAQ

Q1:我现在该学哪个?
先把 Prompt 用熟,再玩一玩带工具的 Agent(Claude Code、Cursor、ChatGPT 的 GPTs/Agents 都行)。MCP / Skill / AGENTS.md 是给”想搭自己工作流”的人准备的,不必一开始就啃。

Q2:MCP 和 Function Calling 是不是一回事?
不是。Function Calling 是”模型怎么表达想调工具”,MCP 是”工具方怎么把自己暴露成一个标准服务”。一个是嘴,一个是接口。一次完整调用:模型用 Function Calling 表达意图 → MCP 协议把这个意图运到 Server → Server 干活回传。

Q3:Skill 和 RAG 区别?
Skill 是”教 AI 怎么做事”(流程 + 脚本),RAG 是”给 AI 提供事实”(检索资料)。一个偏过程,一个偏知识。完全可以同时用:在一个 Skill 里规定”遇到事实问题时调用 RAG”。

Q4:AGENTS.md 会不会取代 CLAUDE.md?
短期内两者并存。AGENTS.md 想做跨厂商通用规范,CLAUDE.md 是 Claude Code 的本地约定。务实做法:项目里两份都放,或者让 CLAUDE.md 一句话引用 AGENTS.md

Q5:AI 真的能完全替代我吗?
现在的 Agent 像一个”很努力但偶尔犯糊涂的实习生”——交给它定义清晰、可验证的活儿很合适,关键决策还是要人把关。

Q6:所有这些机制听起来很复杂,普通用户为啥要懂?
因为懂了之后你提问会变厉害。比如知道有上下文窗口,你就会主动总结历史;知道有幻觉,你就会要求引用来源;知道有工具调用,你就会问”你能不能直接帮我跑一下”。


不确定性

  • AGENTS.md 的采用速度变化很快,”60,000 + 项目”的统计来自 2025 年底的二手报道,未来 6 个月的数字可能已经过时。
  • Claude Skills 自 2025-10 发布以来还在快速迭代,”渐进式披露”细节可能在 2026 年内继续演化,建议复核官方工程博客。
  • “Agent” 这个词在不同厂商语境下定义不一致,本文采用的是”LLM + 工具 + 规划”的常见工业界定义,与 ReAct 论文的原始定义一脉相承。
  • ReAct 论文发表于 2022 年 10 月,原始范式之后衍生出 Plan-and-Execute、Reflexion、Tree of Thoughts 等多种变体,本文只讲了最基础的 ReAct 循环。
  • LLM 训练阶段的描述做了大量简化,省略了 SFT、DPO、Constitutional AI 等具体技术;目标是让小白看懂大致流程,不是技术准确性。

后续行动

  • 如果读者反馈良好,可以再写一篇”动手篇”:在自己电脑上配一个 Claude Code + 一个 MCP Server。
  • 跟踪 AGENTS.md 在 2026 年是否被 Anthropic / Claude Code 原生支持。
  • 对比一下 Claude Skills、ChatGPT 的 GPTs、Cursor Rules 三者的边界。
  • 单独写一篇 ReAct 循环 vs Plan-and-Execute vs Reflexion 等 Agent 架构对比。

来源

评论
分享