大语言模型基础
大语言模型(Large Language Model, LLM)是 AI Agent 的核心引擎。理解 LLM 的工作原理,对于构建高效的 Agent 至关重要。
什么是大语言模型?
大语言模型是一种基于深度学习的人工智能模型,通过海量文本数据训练,能够理解和生成人类语言。
「大」指的是模型参数量巨大,通常达到数十亿甚至数万亿参数,这使模型具备强大的语言理解和推理能力。
主流大语言模型
| 模型 | 开发商 | 特点 |
|---|---|---|
| GPT-4 | OpenAI | 多模态理解、强大推理能力 |
| Claude | Anthropic | 长上下文、安全对齐 |
| Gemini | 多模态、搜索整合 | |
| Llama | Meta | 开源、可本地部署 |
| Qwen | 阿里 | 中文理解强、开源 |
| DeepSeek | DeepSeek | 性价比高、代码能力强 |
核心概念
Token(词元)
LLM 处理文本的最小单位。一个汉字通常是 1-2 个 token,英文单词则根据长度可能被分成多个 token。
上下文窗口(Context Window)
模型一次能处理的最大 token 数量。GPT-4 支持 128K tokens,Claude 支持 200K tokens。
Temperature(温度)
控制输出的随机性。温度越高,输出越有创意但可能不稳定;温度越低,输出越确定和可预测。
Embedding(嵌入)
将文本转换为向量表示,便于进行语义相似度计算,是 RAG(检索增强生成)的基础。
LLM 与 Agent 的关系
LLM 是 Agent 的「大脑」,但单独的 LLM 只能做文本生成。要让 LLM 变成真正能干活的 Agent,还需要:
- 工具接口:让 LLM 能调用外部 API 和服务
- 规划能力:让 LLM 能分解和执行多步骤任务
- 记忆系统:让 LLM 能记住历史信息和上下文
- 反馈循环:让 LLM 能根据执行结果调整行为