AI大模型术语全解析：从LLM到Agent，一文读懂所有热门概念

共计 4776 个字符，预计需要花费 12 分钟才能阅读完成。

自从 ChatGPT 引爆 AI 热潮以来，大语言模型（LLM）技术日新月异，新术语层出不穷。无论你是开发者、产品经理，还是单纯对 AI 感兴趣的爱好者，理解这些术语都能帮你更好地跟上这场技术变革。本文将以通俗易懂的方式，为你梳理从基础到最前沿的 AI 大模型相关术语，每个概念都包含专业解释、通俗类比以及权威来源定义，让你一次弄个明白。

一、基础概念：AI 的“脑结构与语言”

1. LLM（大语言模型）

专业解释：基于海量文本数据训练、拥有数百亿甚至更多参数的 Transformer 模型，能够理解并生成自然语言。
通俗类比：像一位读过人类几乎所有书籍的“超级文字接龙高手”，根据上文预测下文。
权威来源：根据 OpenAI 的定义，大语言模型是“经过大量文本数据训练，可以理解和生成类似人类文本的神经网络模型”。

2. Token

专业解释：模型处理文本的最小单位，可以是单词、子词或字符，模型通过预测 Token 序列来生成内容。
通俗类比：像乐高积木的每一个最小颗粒，模型用它们拼出完整的句子。
权威来源：根据 Hugging Face 的定义，Token 是“将输入文本分解成的更小的单元，模型在这些单元上执行计算”。

3. Context（上下文）

专业解释：模型在生成回复时参考的对话历史或背景信息，包含当前对话之前的所有内容。
通俗类比：对话中的“记忆”，就像你和朋友聊天时记得之前说过的话。
权威来源：在 Transformer 论文《Attention Is All You Need》中，Context 指自注意力机制中每个位置能看到的序列信息。

4. Context Window（上下文窗口）

专业解释：模型能“记住”或处理的上下文的最大 Token 数量，超出部分会被截断或遗忘。
通俗类比：模型的“短期记忆容量”，就像人一次只能记住短信的长短，超过就会忘掉开头。
权威来源：常见模型的技术报告中会标明 Context Window，例如 GPT-4 Turbo 的 128K tokens，指能处理的文本长度。

二、数据处理与增强：让 AI 更“博学”

5. RAG（检索增强生成）

专业解释：一种结合检索系统与生成模型的架构：先根据用户查询检索外部知识库，再将检索结果作为上下文输入 LLM 以生成答案。
通俗类比：“开卷考试”：允许模型在回答前先查阅资料，避免凭空想象。
权威来源：由 Lewis 等人于 2020 年在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中提出。

三、指令与交互：如何与 AI“对话”

6. Prompt（提示词）

专业解释：用户向模型输入的文本指令，用于引导模型生成特定输出。
通俗类比：你给 AI 的“任务说明书”，告诉它你想让它做什么。
权威来源：根据 OpenAI 的 Prompt Engineering 指南，Prompt 是“提供给模型的输入，用于指导其生成所需类型的响应”。

7. User Prompt（用户提示词）

专业解释：普通用户在对话中直接输入的内容，通常位于 System Prompt 之后。
通俗类比：你在聊天框里打的那句话。
权威来源：在主流 API（如 OpenAI）中，消息分为 system、user、assistant 角色，User Prompt 对应“user”角色的内容。

8. System Prompt（系统提示词）

专业解释：开发者设定的、对模型行为和角色进行预设的底层指令，用户通常不可见。
通俗类比：给 AI 的“幕后剧本”，比如“你是一名专业的医生，回答要严谨”。
权威来源：OpenAI API 定义 System Prompt 为“设置助手行为和人设的高层次指令”。

9. Prompt Engineering（提示词工程）

专业解释：设计和优化提示词的技术，旨在使模型输出更准确、可控，包括思维链、角色扮演等方法。
通俗类比：“驯服 AI 的魔法咒语书”，研究怎么说 AI 才更听话。
权威来源：根据 Microsoft 的文档，Prompt Engineering 是“设计和优化输入提示以从 AI 模型中获得所需响应的过程”。

四、能力扩展：让 AI 拥有“手脚”

10. Tool（工具）

专业解释：模型可以调用的外部功能或 API，如计算器、搜索引擎、代码解释器，使模型能执行实际操作。
通俗类比：给 AI 安装的“手脚”，让它能计算、查资料、控制设备。
权威来源：OpenAI 的 Function Calling 功能定义 Tool 为“可以由模型调用的外部函数”。

11. Tool Calling（工具调用）

专业解释：模型在生成过程中自主决定调用某个 Tool，并将调用结果融入回复的过程。
通俗类比：AI 在回答问题时说“稍等，我查一下计算器”，然后转身去算。
权威来源：各大模型 API（如 OpenAI、Claude）的“Function Calling”或“Tool Use”特性即为此概念的实现。

12. MCP（模型上下文协议）

专业解释：一种标准化协议，允许 LLM 以统一的方式连接和调用各种外部数据源、工具和 API，类似 AI 应用的“USB- C 接口”。
通俗类比：给所有外部设备统一了“插头”，AI 只需一个接口就能连接数据库、办公软件等。
权威来源：由 Anthropic 在 2024 年底提出的开源协议，旨在解决模型与外部工具的碎片化集成问题。

五、智能体：从“对话”到“做事”

13. Agent（智能体）

专业解释：一个能自主感知环境、进行规划、调用工具并执行动作以实现复杂目标的 AI 系统，具备长期记忆和自我反思能力。
通俗类比：一个“数字员工”，你给它一个目标（如“订三亚的周末游”），它会自己规划、订票、生成行程。
权威来源：根据 Google DeepMind 的定义，智能体是“能够感知其环境、做出决策并采取行动以实现特定目标的系统”。

14. Agent Skill（智能体技能）

专业解释：智能体所拥有的特定能力或技能，通常是封装好的工具模块，如“联网搜索”、“生成图片”、“操作 Excel”。
通俗类比：数字员工的“技能证书”，证明他掌握某项具体能力。
权威来源：智能体开发平台（如 LangChain）将 Skill 定义为“可复用的工具或功能单元，Agent 可以动态调用”。

六、新兴模型形态：AI 的“进化版”

15. LAM（大动作模型）

专业解释：一种不仅能理解语言，还能直接执行复杂多步骤操作（如在多个 App 间完成指令）的模型，强调“行动”而非仅“生成”。
通俗类比：从“脑”升级到“脑 + 手”，能替你操作手机 App、完成跨应用任务。
权威来源：由 Rabbit 公司在其产品中提出，指能够理解人类意图并模拟人类操作图形用户界面的模型。

16. VLA（视觉 - 语言 - 动作模型）

专业解释：一种融合视觉、语言和动作的多模态模型，常用于机器人领域：接收视觉输入，理解语言指令，生成具体的动作序列。
通俗类比：机器人的“大脑”，看到你手指方向，听懂“把那本书拿给我”，然后指挥手臂去抓取。
权威来源：由 Google DeepMind 等机构在机器人领域提出，典型如 RT-2（Robotic Transformer 2）即是一种 VLA 模型。

17. World Model / Physical AI（世界模型 / 物理 AI）

专业解释：能够理解物理世界的常识、因果关系和物理规律的模型，可用于模拟和预测现实世界动态，是机器人和自动驾驶的基础。
通俗类比：AI 心中的“物理直觉”，知道“松开手物体会下落”、“杯子易碎”。
权威来源：由 Yann LeCun 等学者倡导，指 AI 需要学习世界的表征和预测模型，以理解环境并规划动作。

18. Native Multimodality（原生多模态 / 全模态）

专业解释：模型从预训练阶段就同时处理多种模态（文本、图像、音频、视频），模态间深度融合，而非后期拼接。
通俗类比：AI 从出生就“眼耳口鼻”一起发育，能自然地将画面、声音和文字联系起来。
权威来源：谷歌的 Gemini 模型宣称是“原生多模态”，意指其从一开始就针对不同模态联合训练。

19. SLM（小语言模型）

专业解释：参数规模通常较小（数亿到数十亿）、但针对特定领域或任务优化的语言模型，可在资源受限设备上高效运行。
通俗类比：“专科医生”，虽然不像全科医生懂得多，但在心内科领域一样权威，且出诊快、费用低。
权威来源：微软的 Phi 系列、谷歌的 Gemini Nano 等均属于 SLM，旨在以较小的参数实现接近大模型的性能。

七、能力边界拓展：AI 能做更多“事”

20. Agentic AI / Agent（自主智能体 / 智能体）

专业解释：能自主规划、拆解目标、调用工具并反思优化，完成复杂任务的 AI 系统。它标志着 AI 从“回答问题”的工具进化为“完成工作”的数字员工或 AI 原生应用。
通俗类比：一个可以独立完成项目的“数字员工”，你只需告诉他“我要什么”，他会自己想办法并执行。
权威来源：该术语在 2024-2025 年迅速流行，被 Gartner 等机构列为战略技术趋势，强调 AI 的自主性。

21. AI Programming（AI 编程）

权威来源：如 Devin、GitHub Copilot Workspace 等工具所代表的方向，AI 从辅助编码向自主编程演进。

专业解释：利用大模型自动生成、调试、优化甚至设计软件代码的过程，AI 从代码补全演变为主导开发。

通俗类比：“程序员 AI”，你描述需求，它自己编写整个应用程序，并修复漏洞。

八、落地与部署：让 AI 更“高效”

22. Inference Efficiency / Edge Inference（推理效率 / 边缘推理）

专业解释：通过模型压缩、量化、剪枝等技术减少推理时的计算量和延迟，并将推理从云端迁移到手机、摄像头等边缘设备。
通俗类比：让 AI“减肥增肌”，跑得更快、更省电，还能放在口袋里随时随地用。
权威来源：据 IEEE Spectrum 报道，边缘推理是 2025 年十大技术趋势之一，旨在实现隐私、低延迟的本地 AI。

23. 模算效能

专业解释：衡量模型性能与其消耗计算资源之间比值的指标，强调“每单位算力能换来多少智能”。
通俗类比：评价 AI“性价比”，不仅要看聪明程度，还要看吃的电费和硬件成本。
权威来源：斯坦福大学《AI 指数报告》中常提及模型效率，业界用 Performance per FLOP 等指标量化。

24. OpenClaw / NemoClaw

专业解释：开源的智能体开发框架 / 平台，提供模块化工具和协议，让开发者能快速构建、部署自定义 AI 智能体。
通俗类比：AI 智能体的“乐高工坊”，你可以用现成的模块拼装出自己的数字助手。
权威来源：由相关社区发起的开源项目（类似 LangChain、AutoGen），旨在降低智能体开发门槛。

九、治理与安全：让 AI 更“可信”

25. XAI（可解释性 AI）

专业解释：一套方法和工具，旨在解释 AI 模型的决策过程，使模型的内部机制和输出原因变得可理解和可审计。
通俗类比：打开 AI 的“黑盒”，让它告诉我们“为什么这样诊断”而不是只给结论。
权威来源：根据 DARPA 的定义，XAI 旨在“创造出能够解释其行为、使人类用户理解并适当信任的 AI 系统”。

26. Red Teaming（红队测试）

专业解释：通过模拟对抗性攻击，由专门团队主动探测 AI 模型的漏洞、偏见、安全风险，以在部署前加固模型。
通俗类比：像请来一队“黑客”给 AI 系统搞破坏，提前发现弱点并修复。
权威来源：OpenAI 在其模型发布前会进行 Red Teaming，定义为“通过对抗性测试识别模型风险的过程”。

结语

从 LLM 到 Agent，从文字接龙到物理世界操作，这些术语勾勒出 AI 技术的清晰进化路径：AI 正变得越来越自主、多能、高效和可信。理解这些概念不仅能帮助我们更好地使用现有工具，也能让我们对未来可能出现的 AI 应用保持敏感。

希望这篇术语解析对你有所帮助！如果你对某个术语特别感兴趣，或者发现了新的热门概念，欢迎在评论区留言讨论。让我们一起在 AI 的浪潮中保持学习，共同成长。