人工智能（AI）知识串讲

约 4265 字大约 14 分钟

2026-02-28

一台机器能够解读数据，并有可能从数据中学习，并利用这些知识来适应环境并实现特定目标，那么我们就称其拥有 人工智能（AI，artificial intelligence）。

AI 可以分为两派：符号主义（Symbolic） 和 联结主义（Connectionism）。

符号AI

符号AI 将现实世界的物体表示为符号，然后用逻辑来寻找解决方案。

iPhone 的 Siri 就属于这一类，Siri 维护着一个庞大的符号知识库，所以当我们问她问题时，她会识别名词和动词，将名词转换成符号，将动词转换成关系，然后在知识库中查找它们。

像这种通过知识库和推理实现的AI系统被称为 专家系统（expert systems）。

神经网络

然而，现实世界是模糊且不确定的，人类的直觉几乎不可能用符号和命题逻辑来编程，于是有了联结主义，或者说， 神经网络（Neural Network）。

神经网络 (Neural Network) 模拟了人的大脑，由相互连接的神经元（节点）组成，这些神经元包括输入层、隐藏层和输出层，连结成网。

机器学习

通过不同的方式对人工智能大脑进行训练的过程，称为 机器学习（Machine Learning）。

我们要么给计算机输入大量先验知识，然后让计算机用判断对错的方式来认识世界，这种训练方式称为 监督学习（Supervised Learning），要么给计算机输入大量同类型的事物，让它自己找到规律，总结归类，这种训练方式称为 无监督学习（Unsupervised Learning），又或者，我们可以让计算机去完成一项挑战（下棋、游戏等），当它在无数次试错之后终于达到某个里程碑，此时记下方法，给予正向奖励，并让它寻找更好的方法，从而不断加强，这种训练方式称为 强化学习（Reinforcement Learning）。

机器学习造就了利用 协同过滤（Collaborative Filtering） 进行商品推荐的早期推荐系统，以及金融风控、垃圾邮件过滤等初级AI应用。

深度学习

计算机在神经网络中学习时，是通过一层又一层的神经元进行的，当层级足够深，并且能够自动进行特征提取，不再依赖人工设计的特征工程时，我们就称为 深度学习（Deep Learning）。

虽然神经网络和深度学习的概念在上个世纪早已提出，但它在数学上充满了大量的矩阵计算，非常消耗算力，那个年代互联网上也没有太多知识（数据）可以用来训练，所以在 2010 年代之前，并没有引起广泛关注。

ImageNet 和 AlexNet

2009 年，李飞飞教授公开了一个庞大的公共图片数据集 ImageNet，并在 2010 年举办了 “ImageNet 大规模视觉识别挑战赛”，前两年都是传统的“支持向量机（SVM）”算法获胜，直到 2012 年，多伦多大学的 Geoff Hinton 教授带领他的学生 Alex Krizhevsky 和 Ilya Sutskever 将神经网络应用于 ImageNet ，并取名为 AlexNet ，以 85% 的准确率斩获冠军。

AlexNet 证明了大规模数据 + 强大的 GPU 算力 + 深度神经网络这一组合的无穷威力。

CNN 和 RNN

AlexNet 底层使用的是 卷积神经网络（CNN），CNN 使用卷积层来高效提取局部特征，特别适合图像和视频处理。

而在 自然语言处理（NLP） 方面， 循环神经网络（RNN） 开始崭露头角，RNN 会逐个读取单词（Token），并且维护一个隐藏状态来记忆之前看过的信息，因此适合处理序列（文字）数据。

RNN 虽然很好，但有两个致命缺陷：一个是无法并行计算，训练速度很慢，另一个是存在长距离依赖问题（遗忘），当句子变长时，AI容易“记了后面忘了前面”。

Transformer

2015 年前后，为了解决 RNN 的遗忘问题，研究人员在机器翻译任务中引入了 注意力机制（Attention），其核心思想是，在翻译当前词时，不要只看 RNN 最后一步压缩出来的状态，而是直接回头去看输入序列中的所有词。算是解决了长距离依赖问题。

2017 年，Google 机器翻译团队在训练庞大的翻译模型时，受够了 RNN 缓慢的训练速度。他们想，既然 Attention 这么好用，我们能不能把 RNN 彻底扔掉，只用 Attention ？于是诞生了著名的论文《Attention Is All You Need》。

不要循环（Recurrence），不要卷积（Convolution），注意力（Attention）就是你所需要的一切。

这篇论文提出的 Transformer 架构，有几个特点：

自注意力机制：句子中的每一个词都会和句子中的所有其他词直接进行交互，从而获得全局上下文；
并行化：整个句子的所有词可以同时输入到网络中，进行大规模并行的矩阵乘法运算；
位置编码：记住句子中词语的位置信息，从而感知到词的先后顺序；
多头注意力：让模型从不同的视角去理解句子（如一个头关注语法，一个头关注指代关系）

大模型时代

大语言模型（LLM）

由于 Transformer 架构支持并行，研究人员终于可以利用海量的数据和庞大的算力去训练拥有数十亿、数百亿甚至上万亿参数的模型。这些拥有超大量参数的模型，称为 大语言模型（Large language models，LLM），简称大模型。

2018 年，OpenAI 基于 Transformer 搞出了 GPT-1（Generative Pre-trained Transformer），Google 则搞出了 BERT。可以说是 ChatGPT 和 Gemini 的前身。

闭源模型

2022 年底，OpenAI 的 AI 聊天机器人 ChatGPT 横空出世，彻底引爆了 AI 浪潮。

早在 2019 年，OpenAI 就接受了微软超过百亿美元的投资，ChatGPT 的出世让微软迅速将 GPT 能力整合进全线产品（Copilot），试图在 Bing 搜索和 Office 领域颠覆传统的交互模式；Google 经过一段时间的资源整合，也推出了 Gemini 系列模型；由 OpenAI 前核心成员创立的 Anthropic 推出的 Claude 系列模型在逻辑推理、代码生成和安全性上成为 GPT 极其强劲的对手。

开源模型

无论是 GPT、Gemini 还是 Claude ，都属于闭源模型，我们只能在官网上使用或者调用官方提供的 API 。一些公司干脆把大模型开源了，例如 2023 年 Meta 开源了 LLaMA 模型，2024 年深度求索开源了 DeepSeek-V3 和 DeepSeek-R1 模型，又一次推动了 AI 浪潮。

MoE & Dense

DeepSeek-V3 是通用模型，这类模型常采用 稠密模型架构（Dense），相对更“全能”一些。

DeepSeek-R1 是思考模型，采用 混合专家模型架构（Mixture-of-Experts, MoE），擅长推理和逻辑，当我们向它提问，它首先会使用 思维链（chain-of-thought） 来思考问题，完成思考后才开始输出答案，逻辑性和准确率较高。

由此可见，如果我们要润色一封邮件，选V3；如果要解决一道奥数题，选R1。

本地部署

开源模型的好处是我们可以把大模型下载到本地部署，企业可以在内网部署大模型，进行 AI 落地的探索。

开源大模型通常会发布在 huggingface 网站上，这个网站可以说是 AI 界的 Github 了。以 DeepSeek 为例，我们在 huggingface 下载 DeepSeek-R1 模型时会看到 14B、32B、671B，指的是不同参数版本，参数越高，表示越强大，当然成本也越高。这里的 B 指的是 Billion（10亿），R1 最高配置 671B 也就是 6710 亿参数，也就是我们说的满血版，而其他的是蒸馏版。

在本地部署的 DeepSeek-R1 大模型，满血版跑起来需要超过 400GB 的显存，一般人可跑不起，而 14B 需要 9GB 显存，4060Ti 16G 的显卡勉强能跑。因为训练和运行大模型需要用到大量的 GPU 资源，NVIDIA 公司股票自 2023 年开始大涨，成了最大的受益者。

运行本地大模型

我们借助 Ollama 这样的开源工具应用，在本地运行和部署大语言模型，Ollama 安装简单但交互简陋（命令行）。而 LM Studio 是另一个界面友好型的运行本地大模型的应用。

无论是本地部署也好，服务商提供的 API 也好，我们都可以借助客户端工具去连接模型。ChatBox 和 Cherry Studio 就是这样的工具，他们提供了友好的界面。

选择第三方服务商

不是所有人都有条件本地部署大模型，为了方便，有人选择像硅基流动（SiliconFlow）这样的第三方聚合平台，本质上是平台帮你部署好了大模型，你只需要按需按量购买使用即可，这有点像 AI 时代的“云”。

多模态

像 GPT 这样只能用文字语言交流的，属于语言模型。而有一些模型专注于其他方面，例如专注于图像生成的图像模型，Midjourney 就是一个明星产品，Google 的 Nano banana 生图效果也十分优秀。开源版本的图像模型是 Diffusion ，可玩性较高，并催生了 Stable Diffusion、ComfyUI 这类AI图像定制工具，网友们常常通过 civitai（C站）分享自己的 AI 作品。

此外，还有语音模型（如智普AI的GLM-4-Voice）、视频模型（如字节跳动的Seedance）。

然而，对于目标是星辰大海，是 通用人工智能（AGI） 的我们来说，不会满足于大模型只会一个技能。如果在训练的时候就混合了文字、语音、图像、甚至是视频的能力，这种全能的大模型就叫做 多模态模型，Gemini 就是其中之一。

Token

无论是闭源模型还是开源模型，只要涉及到用 API 调用的方式使用 AI ，就会看到 Token 这个单词。Token 可以理解为 AI 处理数据的最小单位，可能是一个单词，也可能是一个词组。几乎所有 API 都是按 Token 使用量收费。

蒸馏

刚刚提到 DeepSeek 有很多蒸馏版本，那么蒸馏版本是怎么得到的呢？

蒸馏就是让一个庞大、笨重但极其聪明的大模型，去教导一个轻量、快速的小模型，让小模型在保持较低计算成本的同时，尽可能逼近大模型的性能。蒸馏可以是将闭源大模型输出的高质量回答作为训练材料，也可以是在训练过程中让小模型去逼近开源大模型的中间层特征。

蒸馏技术让边缘计算与移动端部署成为可能，小参数模型可以离线部署在手机、车机、IoT 设备上。

提示词工程

我们向 AI 提问时，输入的内容就是提示词。ChatGPT 的诞生，催生了 提示词工程 (Prompt Engineering)，简单来说，就是如何与AI说话的艺术。

早期的 ChatGPT 或者 Stable Diffusion，需要非常巧妙的提问，才能得到比较好的答案。提示词工程就是用来教你怎么写好提示词的。例如，给AI设定角色、提供背景、约束输出格式，从而让AI给出惊艳的回答，而不是泛泛而谈的废话。

检索增强生成（RAG）

大模型的知识只停留在它被训练好的那一天，无法给出实时信息或者是企业内部知识，加上其本质是一个概率机，容易给出一些看似有道理实际上错误的回答，这就是大模型的“幻觉”。

为了解决这个问题，2020 年 AI 研究科学家 Patrick Lewis 等人提出了 检索增强生成（Retrieval-Augmented Generation，RAG） 技术，简而言之，就是给 AI 外接一个知识库或搜索引擎。

当我们提问时，系统会先去资料库里检索出相关内容，然后把这些内容喂给 AI ，让 AI 结合这些准确资料来生成回答。企业级的 AI 客服、智能文档助手基本都在用这个技术。

Skills

大模型本身不能直接上网、查天气或定闹钟。它唯一能做的事情，就是接收一段文本，然后预测并输出下一段文本。

如果我们要让 AI 帮我们做具体的事情，就必须让大模型搭配工具。Skills 就是这样一份技能清单，它本质就是一个个现成的、可被 AI 调用的工具或程序。

当我们想让 AI 帮我们查天气，AI 首先会查找 Skills 技能清单，如果清单里面恰好有一项“天气服务”，它就能根据“天气服务”的说明，构造相应的入参进行调用，再把调用结果组织成通顺的语言来回答。

AI Agent（智能体）

前面提到，大模型本质上只能输入输出自然语言，并不具备执行能力。那么，AI 是怎么帮我们查今天的天气的呢？

事实上，我们面对的 AI ，输入框背后不单纯只有大模型，而是一个 AI Agent（智能体）。

AI Agent 本质上就是一个程序，一边对接了大模型，另一边对接了各种各样的 Skills 和 RAG。

当我们提问或下达一个命令，AI Agent 先向大模型提问，并告诉大模型如果需要外部调用时给出特定格式的行动建议，大模型经过思考和拆解，给出行动建议（通常是JSON，如下所示）。

{
  "action": "getRealTimeWeather",
  "arguments": {
    "city": "北京"
  }
}

AI Agent 识别到这些特定格式的回答，就会在程序中发起调用第三方工具，最终将调用结果再一次提供给大模型生成最终答案。

如果一次调用的结果不能达成目标，AI Agent 可以循环多次调用大模型和外部工具。

可以用一个公式来定义 AI Agent：
AI Agent = LLM（大脑） + 规划（思考路径） + 记忆（RAG等） + 工具（Skills）

模型上下文协议（MCP）

前面提到，AI Agent 去调用外部工具，通常是用 JSON 交互，但是不同的工具由不同的人开发，有不同的出入参格式，一旦工具多了，就会造成超级大麻烦。

模型上下文协议（Model Context Protocol，MCP） 就是用于解决 AI Agent 与外部数据源、工具和系统集成时所面临的碎片化和非标准化问题，类似于为 AI 应用提供了通用的“USB-C 接口”或“万能插头”。这样，大家都有了统一的标准，交互起来也就方便得多了。

Vibe Coding

有了 AI Agent 之后，我们再也不需要自己手动编写代码，AI Agent 会自主规划文件结构、写代码、运行测试，甚至在内置浏览器里自我纠错，我们只需要在关键节点做出决策即可（例如，确认修改、确认执行某个脚本）。

像这样，我们只需要像产品经理一样用自然语言就能够完成软件开发的过程，就叫做 Vibe Coding。

Anthropic 的 Claude Code、Google 的 antigravity、字节跳动的 Trae ，本质上就是集成了大量 AI 功能，方便我们进行 Vibe Coding 或者 AI 辅助编程的 IDE 工具。

OpenClaw

当我们有了各种各样的 AI Agent 之后，会发现它们都太过于“定制化“了，有些 Agent 只会帮你写代码，有些 Agent 只会帮你查天气，并且这些 Agent 内部通常绑定了某些大模型和 Skills ，并不能自由搭配。

有没有一个全能的管家，我们能自由选择大模型，自由选择需要哪些 Skills，并无缝低嵌入到你的电脑中，可以完成几乎任何一些就像我们自己在操作电脑的事情呢？有的，那就是 2026 年初爆火的 OpenClaw 。

OpenClaw 具备行动能力，它可以操作浏览器、执行终端命令、管理日程与邮件、定时执行任务（如每日搜集新闻并向你汇报），而且它可以嵌入到聊天软件之中，你可以像给朋友发消息一样，在 iMessage 上给你的 OpenClaw 下发任务，它就会帮你去完成。