2026年1月8日

【AI 大模型通识课】(二)理解 AI 的原理

为什么 AI 总是逐字输出?

Token:AI 眼中的”字”

想象一下,如果你在读一本书,但每次只能看一个字,然后根据前面看过的所有字来猜下一个字是什么。这就是 AI 的工作方式!

Token 是什么? Token 就像是 AI 的”词汇单位”。对于中文,一个 Token 可能是一个字或一个词;对于英文,可能是一个单词或单词的一部分。比如:”理解”可能是一个 Token,”understand”可能被拆成”under”和”stand”两个 Token。

Transformer:AI 的”大脑结构”

Transformer 就像一个超级复杂的”联想机器”:

  1. 接收输入:你输入一句话,AI 把它拆成一个个 Token
  2. 建立关联:通过”注意力机制”(Attention),AI 会分析每个 Token 和其他 Token 的关系→ 就像你读”我爱吃__”时,大脑会自动联想到”苹果””面条”等词
  3. 逐个预测:基于所有之前的 Token,AI 预测下一个最可能的 Token
  4. 循环往复:输出一个 Token 后,把它加入上下文,再预测下一个

这就是为什么你看到 AI 的回答是”一个字一个字蹦出来”的——因为它确实是在逐个生成!

Transformer 的本质:一个超大型数学公式

很多人觉得 AI 很神秘,但其实 Transformer 的核心就是一个巨大的数学公式——准确地说,是一堆矩阵运算的组合!

神经网络 = 嵌套的数学函数

想象一个超级复杂的计算器:

输出 = f(f(f(...f(输入)...)))
# 每个 f 都是一个数学变换
# 层层嵌套,最终得到结果

具体来说:

  • 输入:你的文字被转成一串数字(向量)
  • 变换:通过多层矩阵乘法、加法、激活函数(如 ReLU、Softmax)进行变换
  • 输出:最后得到一个概率分布,表示”下一个 Token 是什么”

公式的形式:以 Attention 为例

Transformer 的核心机制”注意力”(Attention)本质上就是:

Attention(Q, K, V) = softmax(Q·K^T / √d) · V

其中:
Q = 查询矩阵 (Query)
K = 键矩阵 (Key)  
V = 值矩阵 (Value)
d = 向量维度
  • Q·K^T:计算每个词和其他词的相关性
  • softmax:把相关性转成概率分布
  • ·V:根据相关性加权组合信息

这个公式会在模型里重复几十层,每层都在提取更高级的语义特征!

大模型 = 参数大

所谓”大模型”,本质上就是参数数量巨大:

  • 参数是什么? 就是公式里那些需要”学习”的数字→ 比如矩阵里的每个元素
  • GPT-3:1750 亿个参数 = 1750 亿个可调整的数字
  • GPT-4:据估计超过 1 万亿个参数

参数越多,模型能”记住”的规律就越多,表达能力就越强——就像一个多项式,项数越多,能拟合的曲线越复杂!

记住: AI 不是黑魔法,而是一个超大型的可训练数学公式。训练过程就是通过海量数据,调整公式里的参数,让它能够准确预测”下一个词是什么”。


AI 是怎么学习的?用学习类比来理解

自监督学习 = 读书

想象你在图书馆里疯狂读书:

  • 没有老师告诉你答案:你只是大量阅读各种文章、书籍、网页
  • 自己总结规律:读得多了,你自然能感觉到”什么样的句子是通顺的””哪些词经常一起出现”
  • 练习方式:盖住下一个字,根据前面的内容猜这个字是什么

GPT 的训练就是这样!它读了整个互联网的文本(数万亿个 Token),通过不断预测”下一个词是什么”来学习语言规律。

监督学习 = 背题

这就像考试前刷题库:

  • 有标准答案:每道题都有正确答案→ 比如:问题”法国首都是?”答案”巴黎”
  • 反复练习:做错了就纠正,直到记住正确答案
  • 针对性强:专门训练某种能力(比如分类、翻译、问答)

很多 AI 应用会在自监督学习的基础上,再用监督学习来”精调”,让它更擅长特定任务。

泛化 = 活学活用

真正的理解不是死记硬背,而是举一反三:

  • 见过的题:AI 训练时见过”狗是动物”
  • 没见过的题:AI 能推理出”猫也是动物”(即使训练数据里没明说)
  • 核心能力:不是简单记忆,而是理解底层规律

泛化能力越强的 AI,越能处理新问题。这也是为什么大模型这么强——它们见过的数据足够多样化,学到了更通用的规律。

强化学习 = 刷题 + 得分反馈

这就像打游戏升级:

  1. 尝试:AI 生成一个回答
  2. 评分:人类或评分系统给这个回答打分→ 好的回答:+10 分→ 不相关的回答:-5 分→ 有害的回答:-50 分
  3. 调整:AI 调整自己的策略,争取下次得更高分
  4. 循环:不断尝试→得分→优化

ChatGPT 的”人类反馈强化学习”(RLHF)就是这样:通过大量人类标注员的反馈,让 AI 学会生成更有帮助、更安全的回答。


总结:AI 学习的完整流程

  1. 自监督学习(读书)→ 建立语言基础,学会”说人话”
  2. 监督学习(背题)→ 针对特定任务进行精调
  3. 泛化(活学活用)→ 能够处理训练数据中没见过的新问题
  4. 强化学习(刷题)→ 根据人类反馈不断优化,让回答更符合人类需求

记住这个公式: 海量阅读(自监督)+ 专项训练(监督)+ 举一反三(泛化)+ 反馈优化(强化)= 强大的 AI 助手

现在你知道了,AI 不是魔法,而是通过巧妙的训练方法,从数据中学习规律,就像人类学习一样——只不过它能”读”的书比我们多得多!


“以书为舟,遨游尘世”,
最好的免费 kindle 电子书分享站:

You may also like...

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


*