1、从符号主义到Transformer
约 1540 字大约 5 分钟
2026-04-14
一台机器能够解读数据,并有可能从数据中学习,并利用这些知识来适应环境并实现特定目标,那么我们就称其拥有 人工智能(AI,artificial intelligence)。
AI 可以分为两派:符号主义(Symbolic) 和 联结主义(Connectionism)。
符号AI
符号AI 将现实世界的物体表示为符号,然后用逻辑来寻找解决方案。
iPhone 的 Siri 就属于这一类,Siri 维护着一个庞大的符号知识库,所以当我们问她问题时,她会识别名词和动词,将名词转换成符号,将动词转换成关系,然后在知识库中查找它们。
像这种通过知识库和推理实现的AI系统被称为 专家系统(expert systems)。
神经网络
然而,现实世界是模糊且不确定的,人类的直觉几乎不可能用符号和命题逻辑来编程,于是有了联结主义,或者说, 神经网络(Neural Network)。
神经网络模拟了人的大脑,由相互连接的神经元(节点)组成,这些神经元包括输入层、隐藏层和输出层,连结成网。
机器学习
通过不同的方式对人工智能大脑进行训练的过程,称为 机器学习(Machine Learning)。
我们要么给计算机输入大量先验知识,然后让计算机用判断对错的方式来认识世界,这种训练方式称为 监督学习(Supervised Learning),要么给计算机输入大量同类型的事物,让它自己找到规律,总结归类,这种训练方式称为 无监督学习(Unsupervised Learning),又或者,我们可以让计算机去完成一项挑战(下棋、游戏等),当它在无数次试错之后终于达到某个里程碑,此时记下方法,给予正向奖励,并让它寻找更好的方法,从而不断加强,这种训练方式称为 强化学习(Reinforcement Learning)。
机器学习造就了利用 协同过滤(Collaborative Filtering) 进行商品推荐的早期推荐系统,以及金融风控、垃圾邮件过滤等初级AI应用。
深度学习
计算机在神经网络中学习时,是通过一层又一层的神经元进行的,当层级足够深,并且能够自动进行特征提取,不再依赖人工设计的特征工程时,我们就称为 深度学习(Deep Learning)。
虽然神经网络和深度学习的概念在上个世纪早已提出,但它在数学上充满了大量的矩阵计算,非常消耗算力,那个年代互联网上也没有太多知识(数据)可以用来训练,所以在 2010 年代之前,并没有引起广泛关注。
ImageNet 和 AlexNet
2009 年,李飞飞教授公开了一个庞大的公共图片数据集 ImageNet,并在 2010 年举办了 “ImageNet 大规模视觉识别挑战赛”,前两年都是传统的“支持向量机(SVM)”算法获胜,直到 2012 年,多伦多大学的 Geoff Hinton 教授带领他的学生 Alex Krizhevsky 和 Ilya Sutskever 将神经网络应用于 ImageNet ,并取名为 AlexNet ,以 85% 的准确率斩获冠军。
AlexNet 证明了大规模数据 + 强大的 GPU 算力 + 深度神经网络这一组合的无穷威力,从此打开了人工智能新时代的序幕。
为了表彰 Geoff Hinton 在机器学习与人工智能上做出的基础发明及创新,2024年,他被授予诺贝尔物理学奖。
CNN 和 RNN
AlexNet 底层使用的是 卷积神经网络(CNN),CNN 使用卷积层来高效提取局部特征,特别适合图像和视频处理。
而在 自然语言处理(NLP) 方面, 循环神经网络(RNN) 开始崭露头角,RNN 会逐个读取单词(Token),并且维护一个隐藏状态来记忆之前看过的信息,因此适合处理序列(文字)数据。
RNN 虽然很好,但有两个致命缺陷:一个是无法并行计算,训练速度很慢,另一个是存在长距离依赖问题(遗忘),当句子变长时,AI容易“记了后面忘了前面”。
Transformer
2015 年前后,为了解决 RNN 的遗忘问题,研究人员在机器翻译任务中引入了 注意力机制(Attention),其核心思想是,在翻译当前词时,不要只看 RNN 最后一步压缩出来的状态,而是直接回头去看输入序列中的所有词。算是解决了长距离依赖问题。
2017 年,Google 机器翻译团队在训练庞大的翻译模型时,受够了 RNN 缓慢的训练速度。他们想,既然 Attention 这么好用,我们能不能把 RNN 彻底扔掉,只用 Attention ?
于是,著名的论文《Attention Is All You Need》诞生了。
不要循环(Recurrence),不要卷积(Convolution),注意力(Attention)就是你所需要的一切。
这篇论文提出的 Transformer 架构,有几个特点:
- 自注意力机制:句子中的每一个词都会和句子中的所有其他词直接进行交互,从而获得全局上下文;
- 并行化:整个句子的所有词可以同时输入到网络中,进行大规模并行的矩阵乘法运算;
- 位置编码:记住句子中词语的位置信息,从而感知到词的先后顺序;
- 多头注意力:让模型从不同的视角去理解句子(如一个头关注语法,一个头关注指代关系)
由于 Transformer 架构支持并行,研究人员终于可以利用海量的数据和庞大的算力去训练拥有数十亿、数百亿甚至上万亿参数的模型。这些拥有超大量参数的模型,称为 大语言模型(Large language models,LLM),简称大模型。
下一节:二、从大模型到Agent智能体
