共计 4776 个字符,预计需要花费 12 分钟才能阅读完成。
自从 ChatGPT 引爆 AI 热潮以来,大语言模型(LLM)技术日新月异,新术语层出不穷。无论你是开发者、产品经理,还是单纯对 AI 感兴趣的爱好者,理解这些术语都能帮你更好地跟上这场技术变革。本文将以通俗易懂的方式,为你梳理从基础到最前沿的 AI 大模型相关术语,每个概念都包含专业解释、通俗类比以及权威来源定义,让你一次弄个明白。

一、基础概念:AI 的“脑结构与语言”
1. LLM(大语言模型)
- 专业解释:基于海量文本数据训练、拥有数百亿甚至更多参数的 Transformer 模型,能够理解并生成自然语言。
- 通俗类比:像一位读过人类几乎所有书籍的“超级文字接龙高手”,根据上文预测下文。
- 权威来源:根据 OpenAI 的定义,大语言模型是“经过大量文本数据训练,可以理解和生成类似人类文本的神经网络模型”。
2. Token
- 专业解释:模型处理文本的最小单位,可以是单词、子词或字符,模型通过预测 Token 序列来生成内容。
- 通俗类比:像乐高积木的每一个最小颗粒,模型用它们拼出完整的句子。
- 权威来源:根据 Hugging Face 的定义,Token 是“将输入文本分解成的更小的单元,模型在这些单元上执行计算”。
3. Context(上下文)
- 专业解释:模型在生成回复时参考的对话历史或背景信息,包含当前对话之前的所有内容。
- 通俗类比:对话中的“记忆”,就像你和朋友聊天时记得之前说过的话。
- 权威来源:在 Transformer 论文《Attention Is All You Need》中,Context 指自注意力机制中每个位置能看到的序列信息。
4. Context Window(上下文窗口)
- 专业解释:模型能“记住”或处理的上下文的最大 Token 数量,超出部分会被截断或遗忘。
- 通俗类比:模型的“短期记忆容量”,就像人一次只能记住短信的长短,超过就会忘掉开头。
- 权威来源:常见模型的技术报告中会标明 Context Window,例如 GPT-4 Turbo 的 128K tokens,指能处理的文本长度。
二、数据处理与增强:让 AI 更“博学”
5. RAG(检索增强生成)
- 专业解释:一种结合检索系统与生成模型的架构:先根据用户查询检索外部知识库,再将检索结果作为上下文输入 LLM 以生成答案。
- 通俗类比:“开卷考试”:允许模型在回答前先查阅资料,避免凭空想象。
- 权威来源:由 Lewis 等人于 2020 年在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中提出。
三、指令与交互:如何与 AI“对话”
6. Prompt(提示词)
- 专业解释:用户向模型输入的文本指令,用于引导模型生成特定输出。
- 通俗类比:你给 AI 的“任务说明书”,告诉它你想让它做什么。
- 权威来源:根据 OpenAI 的 Prompt Engineering 指南,Prompt 是“提供给模型的输入,用于指导其生成所需类型的响应”。
7. User Prompt(用户提示词)
- 专业解释:普通用户在对话中直接输入的内容,通常位于 System Prompt 之后。
- 通俗类比:你在聊天框里打的那句话。
- 权威来源:在主流 API(如 OpenAI)中,消息分为 system、user、assistant 角色,User Prompt 对应“user”角色的内容。
8. System Prompt(系统提示词)
- 专业解释:开发者设定的、对模型行为和角色进行预设的底层指令,用户通常不可见。
- 通俗类比:给 AI 的“幕后剧本”,比如“你是一名专业的医生,回答要严谨”。
- 权威来源:OpenAI API 定义 System Prompt 为“设置助手行为和人设的高层次指令”。
9. Prompt Engineering(提示词工程)
- 专业解释:设计和优化提示词的技术,旨在使模型输出更准确、可控,包括思维链、角色扮演等方法。
- 通俗类比:“驯服 AI 的魔法咒语书”,研究怎么说 AI 才更听话。
- 权威来源:根据 Microsoft 的文档,Prompt Engineering 是“设计和优化输入提示以从 AI 模型中获得所需响应的过程”。
四、能力扩展:让 AI 拥有“手脚”
10. Tool(工具)
- 专业解释:模型可以调用的外部功能或 API,如计算器、搜索引擎、代码解释器,使模型能执行实际操作。
- 通俗类比:给 AI 安装的“手脚”,让它能计算、查资料、控制设备。
- 权威来源:OpenAI 的 Function Calling 功能定义 Tool 为“可以由模型调用的外部函数”。
11. Tool Calling(工具调用)
- 专业解释:模型在生成过程中自主决定调用某个 Tool,并将调用结果融入回复的过程。
- 通俗类比:AI 在回答问题时说“稍等,我查一下计算器”,然后转身去算。
- 权威来源:各大模型 API(如 OpenAI、Claude)的“Function Calling”或“Tool Use”特性即为此概念的实现。
12. MCP(模型上下文协议)
- 专业解释:一种标准化协议,允许 LLM 以统一的方式连接和调用各种外部数据源、工具和 API,类似 AI 应用的“USB- C 接口”。
- 通俗类比:给所有外部设备统一了“插头”,AI 只需一个接口就能连接数据库、办公软件等。
- 权威来源:由 Anthropic 在 2024 年底提出的开源协议,旨在解决模型与外部工具的碎片化集成问题。
五、智能体:从“对话”到“做事”
13. Agent(智能体)
- 专业解释:一个能自主感知环境、进行规划、调用工具并执行动作以实现复杂目标的 AI 系统,具备长期记忆和自我反思能力。
- 通俗类比:一个“数字员工”,你给它一个目标(如“订三亚的周末游”),它会自己规划、订票、生成行程。
- 权威来源:根据 Google DeepMind 的定义,智能体是“能够感知其环境、做出决策并采取行动以实现特定目标的系统”。
14. Agent Skill(智能体技能)
- 专业解释:智能体所拥有的特定能力或技能,通常是封装好的工具模块,如“联网搜索”、“生成图片”、“操作 Excel”。
- 通俗类比:数字员工的“技能证书”,证明他掌握某项具体能力。
- 权威来源:智能体开发平台(如 LangChain)将 Skill 定义为“可复用的工具或功能单元,Agent 可以动态调用”。
六、新兴模型形态:AI 的“进化版”
15. LAM(大动作模型)
- 专业解释:一种不仅能理解语言,还能直接执行复杂多步骤操作(如在多个 App 间完成指令)的模型,强调“行动”而非仅“生成”。
- 通俗类比:从“脑”升级到“脑 + 手”,能替你操作手机 App、完成跨应用任务。
- 权威来源:由 Rabbit 公司在其产品中提出,指能够理解人类意图并模拟人类操作图形用户界面的模型。
16. VLA(视觉 - 语言 - 动作模型)
- 专业解释:一种融合视觉、语言和动作的多模态模型,常用于机器人领域:接收视觉输入,理解语言指令,生成具体的动作序列。
- 通俗类比:机器人的“大脑”,看到你手指方向,听懂“把那本书拿给我”,然后指挥手臂去抓取。
- 权威来源:由 Google DeepMind 等机构在机器人领域提出,典型如 RT-2(Robotic Transformer 2)即是一种 VLA 模型。
17. World Model / Physical AI(世界模型 / 物理 AI)
- 专业解释:能够理解物理世界的常识、因果关系和物理规律的模型,可用于模拟和预测现实世界动态,是机器人和自动驾驶的基础。
- 通俗类比:AI 心中的“物理直觉”,知道“松开手物体会下落”、“杯子易碎”。
- 权威来源:由 Yann LeCun 等学者倡导,指 AI 需要学习世界的表征和预测模型,以理解环境并规划动作。
18. Native Multimodality(原生多模态 / 全模态)
- 专业解释:模型从预训练阶段就同时处理多种模态(文本、图像、音频、视频),模态间深度融合,而非后期拼接。
- 通俗类比:AI 从出生就“眼耳口鼻”一起发育,能自然地将画面、声音和文字联系起来。
- 权威来源:谷歌的 Gemini 模型宣称是“原生多模态”,意指其从一开始就针对不同模态联合训练。
19. SLM(小语言模型)
- 专业解释:参数规模通常较小(数亿到数十亿)、但针对特定领域或任务优化的语言模型,可在资源受限设备上高效运行。
- 通俗类比:“专科医生”,虽然不像全科医生懂得多,但在心内科领域一样权威,且出诊快、费用低。
- 权威来源:微软的 Phi 系列、谷歌的 Gemini Nano 等均属于 SLM,旨在以较小的参数实现接近大模型的性能。
七、能力边界拓展:AI 能做更多“事”
20. Agentic AI / Agent(自主智能体 / 智能体)
- 专业解释:能自主规划、拆解目标、调用工具并反思优化,完成复杂任务的 AI 系统。它标志着 AI 从“回答问题”的工具进化为“完成工作”的数字员工或 AI 原生应用。
- 通俗类比:一个可以独立完成项目的“数字员工”,你只需告诉他“我要什么”,他会自己想办法并执行。
- 权威来源:该术语在 2024-2025 年迅速流行,被 Gartner 等机构列为战略技术趋势,强调 AI 的自主性。
21. AI Programming(AI 编程)
权威来源:如 Devin、GitHub Copilot Workspace 等工具所代表的方向,AI 从辅助编码向自主编程演进。
专业解释:利用大模型自动生成、调试、优化甚至设计软件代码的过程,AI 从代码补全演变为主导开发。
通俗类比:“程序员 AI”,你描述需求,它自己编写整个应用程序,并修复漏洞。
八、落地与部署:让 AI 更“高效”
22. Inference Efficiency / Edge Inference(推理效率 / 边缘推理)
- 专业解释:通过模型压缩、量化、剪枝等技术减少推理时的计算量和延迟,并将推理从云端迁移到手机、摄像头等边缘设备。
- 通俗类比:让 AI“减肥增肌”,跑得更快、更省电,还能放在口袋里随时随地用。
- 权威来源:据 IEEE Spectrum 报道,边缘推理是 2025 年十大技术趋势之一,旨在实现隐私、低延迟的本地 AI。
23. 模算效能
- 专业解释:衡量模型性能与其消耗计算资源之间比值的指标,强调“每单位算力能换来多少智能”。
- 通俗类比:评价 AI“性价比”,不仅要看聪明程度,还要看吃的电费和硬件成本。
- 权威来源:斯坦福大学《AI 指数报告》中常提及模型效率,业界用 Performance per FLOP 等指标量化。
24. OpenClaw / NemoClaw
- 专业解释:开源的智能体开发框架 / 平台,提供模块化工具和协议,让开发者能快速构建、部署自定义 AI 智能体。
- 通俗类比:AI 智能体的“乐高工坊”,你可以用现成的模块拼装出自己的数字助手。
- 权威来源:由相关社区发起的开源项目(类似 LangChain、AutoGen),旨在降低智能体开发门槛。
九、治理与安全:让 AI 更“可信”
25. XAI(可解释性 AI)
- 专业解释:一套方法和工具,旨在解释 AI 模型的决策过程,使模型的内部机制和输出原因变得可理解和可审计。
- 通俗类比:打开 AI 的“黑盒”,让它告诉我们“为什么这样诊断”而不是只给结论。
- 权威来源:根据 DARPA 的定义,XAI 旨在“创造出能够解释其行为、使人类用户理解并适当信任的 AI 系统”。
26. Red Teaming(红队测试)
- 专业解释:通过模拟对抗性攻击,由专门团队主动探测 AI 模型的漏洞、偏见、安全风险,以在部署前加固模型。
- 通俗类比:像请来一队“黑客”给 AI 系统搞破坏,提前发现弱点并修复。
- 权威来源:OpenAI 在其模型发布前会进行 Red Teaming,定义为“通过对抗性测试识别模型风险的过程”。
结语
从 LLM 到 Agent,从文字接龙到物理世界操作,这些术语勾勒出 AI 技术的清晰进化路径:AI 正变得越来越 自主 、 多能 、 高效 和可信。理解这些概念不仅能帮助我们更好地使用现有工具,也能让我们对未来可能出现的 AI 应用保持敏感。
希望这篇术语解析对你有所帮助!如果你对某个术语特别感兴趣,或者发现了新的热门概念,欢迎在评论区留言讨论。让我们一起在 AI 的浪潮中保持学习,共同成长。
正文完

