大模型原理:它到底在"算"什么,一次说清楚
为什么要懂原理?
你不需要成为工程师,但你需要知道 AI 的「脾气」从哪来——懂了原理,才知道怎么用得好,用在哪里会踩坑。
这节课不会有公式,不会有代码。只有一个你看完能记住、能跟别人讲清楚的解释。
用一句话说清楚
给定前面的文字,它预测「下一个词最可能是什么」
就这么简单?对,就这么简单。但这个「简单」的过程,要训练在几乎整个互联网的文本上,用数千亿参数来捕捉语言中所有的规律、知识、逻辑。
一个类比:压缩了的人类知识
想象一下,有人把人类写过的所有书、文章、对话、代码、评论——几乎所有的文字,全部压缩进了一个超大的文件里。
这个文件不是原文,而是提炼出的「语言规律」:什么词后面跟什么词,什么问题通常怎么回答,什么风格对应什么场景。
大模型就是这样一个「规律提炼器」。当你输入一段话,它就在这些规律里找到最合理的延续。
为什么它能聊天、写代码、做翻译?
因为人类的文字里,本来就包含了这一切。
📖 它能写文章
因为训练数据里有数十亿篇文章,它学会了「文章是什么样子的」
💻 它能写代码
因为训练数据里有 GitHub 上几乎所有的开源代码,它见过无数种写法
🌍 它能做翻译
因为训练数据里有双语文本,它学会了不同语言之间的对应关系
🧮 它能算数学
因为训练数据里有大量数学解题过程,它学会了推理步骤(但复杂计算仍会出错)
这决定了它的两个核心特性
✅ 它擅长的事
任何「文字形式的规律性工作」:写作、总结、翻译、改写、分析文本、生成代码……这些任务,人类留下了大量的样本,模型见过无数次类似的输入输出。
⚠️ 它不擅长的事
需要「与外部世界交互」的事:查今天的股价、实时天气、你个人的事情(除非你告诉它)。以及需要绝对精准的事:大数字运算、法律合规判断、医疗诊断。
「幻觉」是怎么来的?
大模型最被诟病的问题:它会一本正经地说错话,这叫「幻觉(Hallucination)」。
原因很清晰:它的目标是「预测下一个合理的词」,而不是「确保每个词都是事实」。当它不知道某件事的时候,它不会说「我不知道」,而是会生成一个「听起来很合理」的内容。
实际使用中如何应对:
- 重要事实类内容,用 AI 起草,自己核实
- 用它做创作、整理、框架——这些不需要每个字都精确
- 给它明确的信息,它能更准确——你提供原材料,它负责加工
最重要的一个认知转变
AI 不是万能的搜索引擎,也不是无所不知的专家。
它是一个极其擅长处理语言的助手——你越清楚地告诉它你要什么,它做得越好。
下一课,我们就来讲:它到底能做什么、不能做什么,边界在哪里。