人工智能(AI)知识串讲
约 4265 字大约 14 分钟
2026-02-28
一台机器能够解读数据,并有可能从数据中学习,并利用这些知识来适应环境并实现特定目标,那么我们就称其拥有 人工智能(AI,artificial intelligence)。
AI 可以分为两派:符号主义(Symbolic) 和 联结主义(Connectionism)。
符号AI
符号AI 将现实世界的物体表示为符号,然后用逻辑来寻找解决方案。
iPhone 的 Siri 就属于这一类,Siri 维护着一个庞大的符号知识库,所以当我们问她问题时,她会识别名词和动词,将名词转换成符号,将动词转换成关系,然后在知识库中查找它们。
像这种通过知识库和推理实现的AI系统被称为 专家系统(expert systems)。
神经网络
然而,现实世界是模糊且不确定的,人类的直觉几乎不可能用符号和命题逻辑来编程,于是有了联结主义,或者说, 神经网络(Neural Network)。
神经网络 (Neural Network) 模拟了人的大脑,由相互连接的神经元(节点)组成,这些神经元包括输入层、隐藏层和输出层,连结成网。
机器学习
通过不同的方式对人工智能大脑进行训练的过程,称为 机器学习(Machine Learning)。
我们要么给计算机输入大量先验知识,然后让计算机用判断对错的方式来认识世界,这种训练方式称为 监督学习(Supervised Learning),要么给计算机输入大量同类型的事物,让它自己找到规律,总结归类,这种训练方式称为 无监督学习(Unsupervised Learning),又或者,我们可以让计算机去完成一项挑战(下棋、游戏等),当它在无数次试错之后终于达到某个里程碑,此时记下方法,给予正向奖励,并让它寻找更好的方法,从而不断加强,这种训练方式称为 强化学习(Reinforcement Learning)。
机器学习造就了利用 协同过滤(Collaborative Filtering) 进行商品推荐的早期推荐系统,以及金融风控、垃圾邮件过滤等初级AI应用。
深度学习
计算机在神经网络中学习时,是通过一层又一层的神经元进行的,当层级足够深,并且能够自动进行特征提取,不再依赖人工设计的特征工程时,我们就称为 深度学习(Deep Learning)。
虽然神经网络和深度学习的概念在上个世纪早已提出,但它在数学上充满了大量的矩阵计算,非常消耗算力,那个年代互联网上也没有太多知识(数据)可以用来训练,所以在 2010 年代之前,并没有引起广泛关注。
ImageNet 和 AlexNet
2009 年,李飞飞教授公开了一个庞大的公共图片数据集 ImageNet,并在 2010 年举办了 “ImageNet 大规模视觉识别挑战赛”,前两年都是传统的“支持向量机(SVM)”算法获胜,直到 2012 年,多伦多大学的 Geoff Hinton 教授带领他的学生 Alex Krizhevsky 和 Ilya Sutskever 将神经网络应用于 ImageNet ,并取名为 AlexNet ,以 85% 的准确率斩获冠军。
AlexNet 证明了大规模数据 + 强大的 GPU 算力 + 深度神经网络这一组合的无穷威力。
CNN 和 RNN
AlexNet 底层使用的是 卷积神经网络(CNN),CNN 使用卷积层来高效提取局部特征,特别适合图像和视频处理。
而在 自然语言处理(NLP) 方面, 循环神经网络(RNN) 开始崭露头角,RNN 会逐个读取单词(Token),并且维护一个隐藏状态来记忆之前看过的信息,因此适合处理序列(文字)数据。
RNN 虽然很好,但有两个致命缺陷:一个是无法并行计算,训练速度很慢,另一个是存在长距离依赖问题(遗忘),当句子变长时,AI容易“记了后面忘了前面”。
Transformer
2015 年前后,为了解决 RNN 的遗忘问题,研究人员在机器翻译任务中引入了 注意力机制(Attention),其核心思想是,在翻译当前词时,不要只看 RNN 最后一步压缩出来的状态,而是直接回头去看输入序列中的所有词。算是解决了长距离依赖问题。
2017 年,Google 机器翻译团队在训练庞大的翻译模型时,受够了 RNN 缓慢的训练速度。他们想,既然 Attention 这么好用,我们能不能把 RNN 彻底扔掉,只用 Attention ?于是诞生了著名的论文《Attention Is All You Need》。
不要循环(Recurrence),不要卷积(Convolution),注意力(Attention)就是你所需要的一切。
这篇论文提出的 Transformer 架构,有几个特点:
- 自注意力机制:句子中的每一个词都会和句子中的所有其他词直接进行交互,从而获得全局上下文;
- 并行化:整个句子的所有词可以同时输入到网络中,进行大规模并行的矩阵乘法运算;
- 位置编码:记住句子中词语的位置信息,从而感知到词的先后顺序;
- 多头注意力:让模型从不同的视角去理解句子(如一个头关注语法,一个头关注指代关系)
大模型时代
大语言模型(LLM)
由于 Transformer 架构支持并行,研究人员终于可以利用海量的数据和庞大的算力去训练拥有数十亿、数百亿甚至上万亿参数的模型。这些拥有超大量参数的模型,称为 大语言模型(Large language models,LLM),简称大模型。
2018 年,OpenAI 基于 Transformer 搞出了 GPT-1(Generative Pre-trained Transformer),Google 则搞出了 BERT。可以说是 ChatGPT 和 Gemini 的前身。
闭源模型
2022 年底,OpenAI 的 AI 聊天机器人 ChatGPT 横空出世,彻底引爆了 AI 浪潮。
早在 2019 年,OpenAI 就接受了微软超过百亿美元的投资,ChatGPT 的出世让微软迅速将 GPT 能力整合进全线产品(Copilot),试图在 Bing 搜索和 Office 领域颠覆传统的交互模式;Google 经过一段时间的资源整合,也推出了 Gemini 系列模型;由 OpenAI 前核心成员创立的 Anthropic 推出的 Claude 系列模型在逻辑推理、代码生成和安全性上成为 GPT 极其强劲的对手。
开源模型
无论是 GPT、Gemini 还是 Claude ,都属于闭源模型,我们只能在官网上使用或者调用官方提供的 API 。一些公司干脆把大模型开源了,例如 2023 年 Meta 开源了 LLaMA 模型,2024 年深度求索开源了 DeepSeek-V3 和 DeepSeek-R1 模型,又一次推动了 AI 浪潮。
MoE & Dense
DeepSeek-V3 是通用模型,这类模型常采用 稠密模型架构(Dense),相对更“全能”一些。
DeepSeek-R1 是思考模型,采用 混合专家模型架构(Mixture-of-Experts, MoE),擅长推理和逻辑,当我们向它提问,它首先会使用 思维链(chain-of-thought) 来思考问题,完成思考后才开始输出答案,逻辑性和准确率较高。
由此可见,如果我们要润色一封邮件,选V3;如果要解决一道奥数题,选R1。
本地部署
开源模型的好处是我们可以把大模型下载到本地部署,企业可以在内网部署大模型,进行 AI 落地的探索。
开源大模型通常会发布在 huggingface 网站上,这个网站可以说是 AI 界的 Github 了。以 DeepSeek 为例,我们在 huggingface 下载 DeepSeek-R1 模型时会看到 14B、32B、671B,指的是不同参数版本,参数越高,表示越强大,当然成本也越高。这里的 B 指的是 Billion(10亿),R1 最高配置 671B 也就是 6710 亿参数,也就是我们说的满血版,而其他的是蒸馏版。
在本地部署的 DeepSeek-R1 大模型,满血版跑起来需要超过 400GB 的显存,一般人可跑不起,而 14B 需要 9GB 显存,4060Ti 16G 的显卡勉强能跑。因为训练和运行大模型需要用到大量的 GPU 资源,NVIDIA 公司股票自 2023 年开始大涨,成了最大的受益者。
运行本地大模型
我们借助 Ollama 这样的开源工具应用,在本地运行和部署大语言模型,Ollama 安装简单但交互简陋(命令行)。而 LM Studio 是另一个界面友好型的运行本地大模型的应用。
无论是本地部署也好,服务商提供的 API 也好,我们都可以借助客户端工具去连接模型。ChatBox 和 Cherry Studio 就是这样的工具,他们提供了友好的界面。
选择第三方服务商
不是所有人都有条件本地部署大模型,为了方便,有人选择像 硅基流动(SiliconFlow) 这样的第三方聚合平台,本质上是平台帮你部署好了大模型,你只需要按需按量购买使用即可,这有点像 AI 时代的“云”。
多模态
像 GPT 这样只能用文字语言交流的,属于语言模型。而有一些模型专注于其他方面,例如专注于图像生成的图像模型,Midjourney 就是一个明星产品,Google 的 Nano banana 生图效果也十分优秀。开源版本的图像模型是 Diffusion ,可玩性较高,并催生了 Stable Diffusion、ComfyUI 这类AI图像定制工具,网友们常常通过 civitai(C站) 分享自己的 AI 作品。
此外,还有语音模型(如智普AI的GLM-4-Voice)、视频模型(如字节跳动的Seedance)。
然而,对于目标是星辰大海,是 通用人工智能(AGI) 的我们来说,不会满足于大模型只会一个技能。如果在训练的时候就混合了文字、语音、图像、甚至是视频的能力,这种全能的大模型就叫做 多模态模型,Gemini 就是其中之一。
Token
无论是闭源模型还是开源模型,只要涉及到用 API 调用的方式使用 AI ,就会看到 Token 这个单词。Token 可以理解为 AI 处理数据的最小单位,可能是一个单词,也可能是一个词组。几乎所有 API 都是按 Token 使用量收费。
蒸馏
刚刚提到 DeepSeek 有很多蒸馏版本,那么蒸馏版本是怎么得到的呢?
蒸馏就是让一个庞大、笨重但极其聪明的大模型,去教导一个轻量、快速的小模型,让小模型在保持较低计算成本的同时,尽可能逼近大模型的性能。蒸馏可以是将闭源大模型输出的高质量回答作为训练材料,也可以是在训练过程中让小模型去逼近开源大模型的中间层特征。
蒸馏技术让边缘计算与移动端部署成为可能,小参数模型可以离线部署在手机、车机、IoT 设备上。
提示词工程
我们向 AI 提问时,输入的内容就是提示词。ChatGPT 的诞生,催生了 提示词工程 (Prompt Engineering),简单来说,就是如何与AI说话的艺术。
早期的 ChatGPT 或者 Stable Diffusion,需要非常巧妙的提问,才能得到比较好的答案。提示词工程就是用来教你怎么写好提示词的。例如,给AI设定角色、提供背景、约束输出格式,从而让AI给出惊艳的回答,而不是泛泛而谈的废话。
检索增强生成(RAG)
大模型的知识只停留在它被训练好的那一天,无法给出实时信息或者是企业内部知识,加上其本质是一个概率机,容易给出一些看似有道理实际上错误的回答,这就是大模型的“幻觉”。
为了解决这个问题,2020 年 AI 研究科学家 Patrick Lewis 等人提出了 检索增强生成(Retrieval-Augmented Generation,RAG) 技术,简而言之,就是给 AI 外接一个知识库或搜索引擎。
当我们提问时,系统会先去资料库里检索出相关内容,然后把这些内容喂给 AI ,让 AI 结合这些准确资料来生成回答。企业级的 AI 客服、智能文档助手基本都在用这个技术。
Skills
大模型本身不能直接上网、查天气 或 定闹钟。它唯一能做的事情,就是接收一段文本,然后预测并输出下一段文本。
如果我们要让 AI 帮我们做具体的事情,就必须让大模型搭配工具。Skills 就是这样一份技能清单,它本质就是一个个现成的、可被 AI 调用的工具或程序。
当我们想让 AI 帮我们查天气,AI 首先会查找 Skills 技能清单,如果清单里面恰好有一项“天气服务”,它就能根据“天气服务”的说明,构造相应的入参进行调用,再把调用结果组织成通顺的语言来回答。
AI Agent(智能体)
前面提到,大模型本质上只能输入输出自然语言,并不具备执行能力。那么,AI 是怎么帮我们查今天的天气的呢?
事实上,我们面对的 AI ,输入框背后不单纯只有大模型,而是一个 AI Agent(智能体)。
AI Agent 本质上就是一个程序,一边对接了大模型,另一边对接了各种各样的 Skills 和 RAG。
当我们提问或下达一个命令,AI Agent 先向大模型提问,并告诉大模型如果需要外部调用时给出特定格式的行动建议,大模型经过思考和拆解,给出行动建议(通常是JSON,如下所示)。
{
"action": "getRealTimeWeather",
"arguments": {
"city": "北京"
}
}AI Agent 识别到这些特定格式的回答,就会在程序中发起调用第三方工具,最终将调用结果再一次提供给大模型生成最终答案。
如果一次调用的结果不能达成目标,AI Agent 可以循环多次调用大模型和外部工具。
可以用一个公式来定义 AI Agent:
AI Agent = LLM(大脑) + 规划(思考路径) + 记忆(RAG等) + 工具(Skills)
模型上下文协议(MCP)
前面提到,AI Agent 去调用外部工具,通常是用 JSON 交互,但是不同的工具由不同的人开发,有不同的出入参格式,一旦工具多了,就会造成超级大麻烦。
模型上下文协议(Model Context Protocol,MCP) 就是用于解决 AI Agent 与外部数据源、工具和系统集成时所面临的碎片化和非标准化问题,类似于为 AI 应用提供了通用的“USB-C 接口”或“万能插头”。这样,大家都有了统一的标准,交互起来也就方便得多了。
Vibe Coding
有了 AI Agent 之后,我们再也不需要自己手动编写代码,AI Agent 会自主规划文件结构、写代码、运行测试,甚至在内置浏览器里自我纠错,我们只需要在关键节点做出决策即可(例如,确认修改、确认执行某个脚本)。
像这样,我们只需要像产品经理一样用自然语言就能够完成软件开发的过程,就叫做 Vibe Coding。
Anthropic 的 Claude Code、Google 的 antigravity、字节跳动的 Trae ,本质上就是集成了大量 AI 功能,方便我们进行 Vibe Coding 或者 AI 辅助编程的 IDE 工具。
OpenClaw
当我们有了各种各样的 AI Agent 之后,会发现它们都太过于“定制化“了,有些 Agent 只会帮你写代码,有些 Agent 只会帮你查天气,并且这些 Agent 内部通常绑定了某些大模型和 Skills ,并不能自由搭配。
有没有一个全能的管家,我们能自由选择大模型,自由选择需要哪些 Skills,并无缝低嵌入到你的电脑中,可以完成几乎任何一些就像我们自己在操作电脑的事情呢?有的,那就是 2026 年初爆火的 OpenClaw 。
OpenClaw 具备行动能力,它可以操作浏览器、执行终端命令、管理日程与邮件、定时执行任务(如每日搜集新闻并向你汇报),而且它可以嵌入到聊天软件之中,你可以像给朋友发消息一样,在 iMessage 上给你的 OpenClaw 下发任务,它就会帮你去完成。
