一、模型与训练基础
1. Transformer
2017 年 Google 论文”Attention Is All You Need”提出的神经网络架构,是几乎所有现代 LLM 的基础。核心创新是自注意力机制(Self-Attention),能让模型在处理一个词时”看到”输入序列中所有其他词的信息,从而捕捉长距离依赖关系。
GPT、BERT、Claude、Gemini 等模型都基于 Transformer。
2. Token(词元)
LLM 处理文本的基本单位。不是”字”也不是”词”,而是介于两者之间的片段。例如英文中 “unhappiness” 可能被拆成 “un” + “happi” + “ness” 三个 token;中文中一个汉字通常对应 1-2 个 token。
Token 很重要,因为:
- 计费按 token 数:输入 1000 token + 输出 500 token = 按 1500 token 计费
- 上下文窗口按 token 算:GPT-4o 支持 128K token 上下文
- 生成速度按 token/秒衡量
3. Context Window(上下文窗口)
LLM 一次能处理的最大 token 数量。包括输入(系统提示 + 历史消息 + 用户输入)和输出的总和。
| 模型 | 上下文窗口 |
|---|---|
| GPT-4o | 128K tokens |
| Claude 3.5 Sonnet | 200K tokens |
| Gemini 1.5 Pro | 2M tokens |
| DeepSeek-V3 | 128K tokens |
超出窗口的内容会被截断,模型”看不见”。这就是为什么需要 RAG——不可能把所有文档塞进上下文。
4. Temperature(温度)
控制模型输出随机性的参数,范围通常 0-2:
- Temperature = 0:输出最确定、最保守,每次生成结果几乎相同。适合代码生成、数据提取等需要精确性的场景
- Temperature = 0.7:平衡创造性和准确性,适合日常对话
- Temperature = 1.5+:输出高度随机、富有创意,但可能不连贯。适合创意写作
5. Top-P(核采样)
另一个控制输出随机性的参数。Top-P = 0.9 表示模型只从累积概率前 90% 的 token 中采样,排除那些极低概率的”离谱”选项。
通常 Temperature 和 Top-P 二选一调整,不建议同时大幅修改。
6. Fine-tuning(微调)
在预训练模型的基础上,用特定领域的数据继续训练,使模型更擅长该领域的任务。例如用大量医疗问答数据微调 GPT,得到一个医疗领域的专用模型。
微调 vs. RAG 的选择:
- 微调:改变模型本身的知识和行为风格,适合需要模型”学会”新技能的场景
- RAG:不改模型,只在查询时注入外部知识,适合知识频繁更新的场景
7. Pre-training(预训练)
LLM 最初的大规模训练阶段。在海量互联网文本上训练,学习语言的通用规律。这一步成本极高(数百万美元、数千块 GPU、数周时间)。预训练完成的模型称为”基座模型”(Base Model)。
8. RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)
预训练之后的对齐阶段。流程是:让人类标注员对模型的多个回答进行排序,训练一个”奖励模型”来预测人类偏好,然后用强化学习让 LLM 生成更符合人类偏好的回答。
这就是为什么 ChatGPT 比原始 GPT 模型”更好用”——RLHF 让它学会了拒绝有害请求、提供有帮助的回答。
9. SFT(Supervised Fine-Tuning,监督微调)
在预训练和 RLHF 之间的一步。用人工编写的高质量对话示例训练模型,让基座模型学会”对话的格式”——理解指令、给出结构化回答。
10. Distillation(蒸馏)
将大模型的能力”压缩”到小模型中。方法是让小模型学习模仿大模型的输出。例如用 GPT-4 的回答作为训练数据来微调一个 7B 参数的小模型,小模型在特定任务上可以接近大模型的效果,但推理成本低得多。
11. Quantization(量化)
降低模型参数精度以减小模型体积和加速推理。例如把 32 位浮点数(FP32)压缩为 4 位整数(INT4)。一个 70B 模型原始需要 140GB 显存,量化到 4bit 后只需约 35GB。
这让大模型可以在消费级 GPU 甚至 CPU 上运行。常见量化格式:GGUF(llama.cpp 使用)、GPTQ、AWQ。
二、推理与部署
12. Inference(推理)
模型训练完成后,实际使用模型处理输入、生成输出的过程。相对于”训练”(学习阶段),”推理”就是”使用阶段”。
调用 OpenAI API 获取回答,就是在进行推理。推理的核心指标是延迟(首 token 时间)和吞吐量(每秒生成 token 数)。
13. Latency(延迟)
从发送请求到收到第一个响应的时间。在 AI 应用中关注两个延迟:
- TTFT(Time To First Token):从请求到第一个 token 返回的时间,决定了用户感知的”响应速度”
- TPS(Tokens Per Second):每秒生成的 token 数,决定了整个回答的完成速度
14. Ollama
一个让你在本地电脑上运行开源 LLM 的工具。一行命令即可下载和运行 Llama、Mistral、DeepSeek 等开源模型:
1 | ollama run llama3.1 |
提供与 OpenAI 兼容的本地 API(默认 http://localhost:11434),方便集成到你的 Agent 项目中。适合开发测试、隐私敏感场景。
15. vLLM
高性能的 LLM 推理引擎(Python),采用 PagedAttention 技术大幅提升推理吞吐量。用于在服务器上部署开源模型为 API 服务,是很多公司自建模型服务的首选引擎。
16. ONNX Runtime
微软的跨平台模型推理引擎。可以将各种框架(PyTorch、TensorFlow)训练的模型转为 ONNX 格式,在 CPU/GPU/移动端高效运行。
三、Prompt 工程
17. Prompt(提示词)
发给 LLM 的输入文本。Prompt 的质量直接决定了输出质量。在 Agent 系统中有几种角色的 Prompt:
- System Prompt:系统级指令,定义 Agent 的角色、能力边界和行为准则
- User Prompt:用户的实际输入
- Assistant Prompt:模型的历史回答(在多轮对话中)
18. Prompt Engineering(提示词工程)
设计和优化 Prompt 以获得更好输出的技术。核心技巧包括:
- Few-shot:在 Prompt 中给几个示例,让模型理解期望的输出格式
- Zero-shot:不给示例,直接描述任务
- Chain of Thought (CoT):要求模型”一步步思考”,提升推理能力
- Role Playing:给模型设定角色(”你是一个资深前端工程师”)
19. Chain of Thought(思维链,CoT)
一种 Prompt 技巧,通过让模型展示推理过程来提升复杂任务的准确率。简单加一句”Let’s think step by step”就能显著提升数学题的正确率。
进化版本:
- Tree of Thought (ToT):探索多条推理路径,选择最优
- Graph of Thought (GoT):推理路径形成图结构,可以合并和回溯
20. System Prompt(系统提示词)
给 LLM 的”底层指令”,定义模型的行为准则。用户通常看不到但它始终影响模型的回答。例如:
1 | 你是一个专业的客服助手。你只回答与我们产品相关的问题。 |
21. Few-shot Learning(少样本学习)
在 Prompt 中提供少量示例,让模型”学会”任务模式:
1 | 将以下句子翻译为正式商务语体: |
模型会模仿示例的风格完成翻译。
四、Agent 进阶架构
22. MCP(Model Context Protocol,模型上下文协议)
Anthropic 在 2024 年底发布的开放协议标准。它定义了 AI 应用与外部数据源/工具之间的标准化通信方式,类似于 AI 世界的”USB 接口”。
核心概念:
- MCP Server:提供工具和资源的服务端(如数据库连接器、文件系统访问器)
- MCP Client:消费工具的 AI 应用端
- Resources:只读数据(类似 GET 请求)
- Tools:可执行的操作(类似 POST 请求)
好处是:写一次 MCP Server,所有支持 MCP 的 AI 应用都能用。你的 Cursor 编辑器中就在使用 MCP。
23. Tool Use / Tool Calling
比 Function Calling 更广义的概念。Function Calling 是 OpenAI 最先提出的术语,Tool Use 是 Anthropic 的叫法,Tool Calling 是社区通用术语。三者本质相同——让 LLM 能够请求调用外部工具。
24. Agentic Workflow(智能体工作流)
将多个 Agent 能力节点编排成一个流程图。相比自由推理的 Agent,Agentic Workflow 更可控、可预测。例如:
1 | 用户输入 → 意图分类 → [查询类] → 搜索知识库 → 生成回答 |
LangGraph、Dify 等工具专注于构建这类工作流。
25. Orchestration(编排)
协调多个 AI 组件(模型调用、工具执行、数据检索等)执行顺序和数据流的过程。Agent 框架本质上就是一个编排引擎。
26. Callback(回调)
Agent 执行过程中的事件钩子。例如:
onToolCall:工具被调用时触发onFinish:生成完成时触发onToken:每个 token 生成时触发
回调用于日志记录、监控、UI 更新等。
27. Structured Output(结构化输出)
强制 LLM 按特定格式输出(如 JSON),而不是自由文本。OpenAI 的 response_format: { type: "json_object" } 和 Vercel AI SDK 的 generateObject() 都支持此功能。
对 Agent 至关重要——工具参数必须是结构化的,不能让模型输出一段自然语言来”调用工具”。
28. Hallucination(幻觉)
LLM 生成看似合理但实际上错误的内容。例如编造不存在的论文引用、捏造 API 文档细节。这是 LLM 最大的固有缺陷之一。
对抗幻觉的方法:RAG(基于真实数据回答)、Grounding(让模型引用来源)、Temperature 调低、增加验证步骤。
29. Grounding(接地/溯源)
让 LLM 的回答基于可验证的事实来源,而非凭空生成。Google 的 Grounding 功能可以让 Gemini 在回答时自动搜索网络并附上引用来源链接。
30. Context Stuffing(上下文填充)
将大量相关信息直接塞入 Prompt 的上下文中,让模型基于这些信息回答。简单粗暴但有效。缺点是受上下文窗口限制、成本高(token 多则费用高)。
五、数据与存储
31. Chunking(分块)
将长文档切分成小段落的过程,是 RAG 的预处理步骤。常见策略:
- 固定大小分块:每 500 token 切一段
- 语义分块:按段落、章节等语义单元切分
- 递归分块:先按大分隔符切(如标题),再按小分隔符细切
分块粒度很关键:太大则检索不精确,太小则丢失上下文。
32. Similarity Search(相似度搜索)
在向量数据库中,根据向量之间的距离找到最相似的结果。常用距离度量:
- 余弦相似度(Cosine Similarity):最常用,衡量向量方向的相似性
- 欧氏距离(Euclidean Distance):衡量向量在空间中的绝对距离
- 点积(Dot Product):与余弦相似度类似但考虑向量长度
33. Hybrid Search(混合搜索)
结合向量搜索(语义匹配)和传统关键词搜索(精确匹配)的检索方式。例如搜索”React 状态管理”时,向量搜索能找到讨论 useState/Redux 的内容(语义相关),关键词搜索确保包含”React”这个精确词的结果排在前面。
34. Reranking(重排序)
在初步检索结果上,用一个更精确的模型对结果重新排序。例如向量搜索返回 20 条结果,Reranker 模型对它们与查询的相关度精排,取 Top 5。Cohere Rerank、BGE Reranker 是常用工具。
六、安全与治理
35. Alignment(对齐)
确保 AI 的行为符合人类意图和价值观。RLHF、Constitutional AI 等技术都是对齐手段。对齐让模型知道”什么该做、什么不该做”。
36. Red Teaming(红队测试)
用攻击者视角对 AI 系统进行安全测试。红队成员尝试各种方式让 Agent 产生有害输出、泄露信息或执行非预期操作,以发现和修复漏洞。
37. Rate Limiting(速率限制)
限制 API 调用频率。OpenAI 等供应商对每分钟请求数(RPM)和每分钟 token 数(TPM)有限制。Agent 项目中需要处理这些限制,实现重试、排队等机制。
38. Content Moderation(内容审核)
对 AI 输入和输出进行安全审核。OpenAI 提供 Moderation API,可以检测文本是否包含暴力、仇恨、色情等不当内容。
七、评估与可观测性
39. Eval / Evaluation(评估)
系统性地测量 AI 输出质量的过程。常用方法:
- 人工评估:人类打分,金标准但成本高
- LLM-as-Judge:用另一个 LLM 来评判输出质量
- 自动指标:BLEU、ROUGE(翻译/摘要)、准确率(分类)
对 Agent 的评估更复杂,需要评估工具选择是否正确、执行步骤是否高效、最终结果是否准确。
40. Observability(可观测性)
全面监控 AI 系统运行状态的能力。包括:
- Tracing(追踪):每次请求的完整执行链路
- Metrics(指标):延迟、token 消耗、成功率、成本
- Logging(日志):详细的输入输出记录
工具:LangSmith、Langfuse、Helicone、Braintrust 等。
41. A/B Testing(A/B 测试)
在 AI 应用中,同时运行两个不同版本(不同 Prompt、不同模型、不同参数),将流量随机分配,比较哪个版本效果更好。
八、前端 AI 集成相关
42. AI Gateway(AI 网关)
位于你的应用和 LLM API 之间的中间层。提供:统一的 API 接口(切换供应商无需改代码)、缓存(相同请求直接返回缓存结果)、限流、日志、fallback(一个供应商挂了自动切另一个)。
代表产品:Cloudflare AI Gateway、Portkey、LiteLLM。
43. Semantic Cache(语义缓存)
传统缓存要求请求完全一致才命中。语义缓存用向量相似度判断——如果新请求和某个缓存请求”意思差不多”,就返回缓存结果。大幅节省 API 调用费用。
44. Tokenizer(分词器)
将文本拆分为 token 的工具。不同模型使用不同的分词器(GPT 用 tiktoken,Claude 用自己的)。前端可以用 tokenizer 预估输入 token 数,计算成本和是否超出上下文窗口。
1 | npm install tiktoken # OpenAI 的分词器 |
45. Webhook
当 Agent 完成异步任务后,主动向你指定的 URL 发送通知。适合长时间运行的 Agent 任务——用户提交请求后不用轮询,任务完成时自动收到回调。
46. WebSocket
全双工通信协议。相比 SSE(单向推送),WebSocket 支持双向实时通信。在需要用户中途打断 Agent、发送额外指令的场景下比 SSE 更合适。
这些概念覆盖了从模型底层原理、推理部署、Prompt 设计、Agent 架构、数据处理、安全治理到前端集成的完整 AI 技术栈。掌握这些术语后,阅读任何 AI Agent 相关的文档和教程都不会遇到理解障碍。