1、从符号主义到Transformer

约 1540 字大约 5 分钟

2026-02-28

一台机器能够解读数据，并有可能从数据中学习，并利用这些知识来适应环境并实现特定目标，那么我们就称其拥有 人工智能（AI，artificial intelligence）。

AI 可以分为两派：符号主义（Symbolic） 和 联结主义（Connectionism）。

符号AI

符号AI 将现实世界的物体表示为符号，然后用逻辑来寻找解决方案。

iPhone 的 Siri 就属于这一类，Siri 维护着一个庞大的符号知识库，所以当我们问她问题时，她会识别名词和动词，将名词转换成符号，将动词转换成关系，然后在知识库中查找它们。

像这种通过知识库和推理实现的AI系统被称为 专家系统（expert systems）。

神经网络

然而，现实世界是模糊且不确定的，人类的直觉几乎不可能用符号和命题逻辑来编程，于是有了联结主义，或者说， 神经网络（Neural Network）。

神经网络模拟了人的大脑，由相互连接的神经元（节点）组成，这些神经元包括输入层、隐藏层和输出层，连结成网。

机器学习

通过不同的方式对人工智能大脑进行训练的过程，称为 机器学习（Machine Learning）。

我们要么给计算机输入大量先验知识，然后让计算机用判断对错的方式来认识世界，这种训练方式称为 监督学习（Supervised Learning），要么给计算机输入大量同类型的事物，让它自己找到规律，总结归类，这种训练方式称为 无监督学习（Unsupervised Learning），又或者，我们可以让计算机去完成一项挑战（下棋、游戏等），当它在无数次试错之后终于达到某个里程碑，此时记下方法，给予正向奖励，并让它寻找更好的方法，从而不断加强，这种训练方式称为 强化学习（Reinforcement Learning）。

机器学习造就了利用 协同过滤（Collaborative Filtering） 进行商品推荐的早期推荐系统，以及金融风控、垃圾邮件过滤等初级AI应用。

深度学习

计算机在神经网络中学习时，是通过一层又一层的神经元进行的，当层级足够深，并且能够自动进行特征提取，不再依赖人工设计的特征工程时，我们就称为 深度学习（Deep Learning）。

虽然神经网络和深度学习的概念在上个世纪早已提出，但它在数学上充满了大量的矩阵计算，非常消耗算力，那个年代互联网上也没有太多知识（数据）可以用来训练，所以在 2010 年代之前，并没有引起广泛关注。

ImageNet 和 AlexNet

2009 年，李飞飞教授公开了一个庞大的公共图片数据集 ImageNet，并在 2010 年举办了 “ImageNet 大规模视觉识别挑战赛”，前两年都是传统的“支持向量机（SVM）”算法获胜，直到 2012 年，多伦多大学的 Geoff Hinton 教授带领他的学生 Alex Krizhevsky 和 Ilya Sutskever 将神经网络应用于 ImageNet ，并取名为 AlexNet ，以 85% 的准确率斩获冠军。

AlexNet 证明了大规模数据 + 强大的 GPU 算力 + 深度神经网络这一组合的无穷威力，从此打开了人工智能新时代的序幕。

为了表彰 Geoff Hinton 在机器学习与人工智能上做出的基础发明及创新，2024年，他被授予诺贝尔物理学奖。

CNN 和 RNN

AlexNet 底层使用的是 卷积神经网络（CNN），CNN 使用卷积层来高效提取局部特征，特别适合图像和视频处理。

而在 自然语言处理（NLP） 方面， 循环神经网络（RNN） 开始崭露头角，RNN 会逐个读取单词（Token），并且维护一个隐藏状态来记忆之前看过的信息，因此适合处理序列（文字）数据。

RNN 虽然很好，但有两个致命缺陷：一个是无法并行计算，训练速度很慢，另一个是存在长距离依赖问题（遗忘），当句子变长时，AI容易“记了后面忘了前面”。

Transformer

2015 年前后，为了解决 RNN 的遗忘问题，研究人员在机器翻译任务中引入了 注意力机制（Attention），其核心思想是，在翻译当前词时，不要只看 RNN 最后一步压缩出来的状态，而是直接回头去看输入序列中的所有词。算是解决了长距离依赖问题。

2017 年，Google 机器翻译团队在训练庞大的翻译模型时，受够了 RNN 缓慢的训练速度。他们想，既然 Attention 这么好用，我们能不能把 RNN 彻底扔掉，只用 Attention ？

于是，著名的论文《Attention Is All You Need》诞生了。

不要循环（Recurrence），不要卷积（Convolution），注意力（Attention）就是你所需要的一切。

这篇论文提出的 Transformer 架构，有几个特点：

自注意力机制：句子中的每一个词都会和句子中的所有其他词直接进行交互，从而获得全局上下文；
并行化：整个句子的所有词可以同时输入到网络中，进行大规模并行的矩阵乘法运算；
位置编码：记住句子中词语的位置信息，从而感知到词的先后顺序；
多头注意力：让模型从不同的视角去理解句子（如一个头关注语法，一个头关注指代关系）

由于 Transformer 架构支持并行，研究人员终于可以利用海量的数据和庞大的算力去训练拥有数十亿、数百亿甚至上万亿参数的模型。这些拥有超大量参数的模型，称为 大语言模型（Large language models，LLM），简称大模型。

下一节：二、从大模型到Agent智能体