2、大模型时代
约 2098 字大约 7 分钟
2026-04-14
大语言模型(LLM)
由于 Transformer 架构支持并行,研究人员终于可以利用海量的数据和庞大的算力去训练拥有数十亿、数百亿甚至上万亿参数的模型。这些拥有超大量参数的模型,称为 大语言模型(Large language models,LLM),简称大模型。
2018 年,OpenAI 基于 Transformer 搞出了 GPT-1(Generative Pre-trained Transformer),Google 则搞出了 BERT。可以说是 ChatGPT 和 Gemini 的前身。
闭源模型
2022 年底,OpenAI 的 AI 聊天机器人 ChatGPT 横空出世,彻底引爆了 AI 浪潮。
早在 2019 年,OpenAI 就接受了微软超过百亿美元的投资,ChatGPT 的出世让微软迅速将 GPT 能力整合进全线产品(Copilot),试图在 Bing 搜索和 Office 领域颠覆传统的交互模式;Google 经过一段时间的资源整合,也推出了 Gemini 系列模型;由 OpenAI 前核心成员创立的 Anthropic 推出的 Claude 系列模型在逻辑推理、代码生成和安全性上成为 GPT 极其强劲的对手。
开源模型
无论是 GPT、Gemini 还是 Claude ,都属于闭源模型,我们只能在官方网站或APP中使用,或者调用官方提供的 API 。而有一些公司为了抢占市场或提高知名度,选择把大模型开源,例如:
- 2023 年 Meta 开源了 LLaMA 模型;
- 2024 年深度求索开源了 DeepSeek-V3 和 DeepSeek-R1 模型,并在2025年初火爆出圈,推动了国内 AI 的浪潮;
- 2025 年阿里开源了 Qwen 3.5 模型;
- 2026 年 Google 开源了 Gemma 4 模型。
下载开源模型
开源模型的好处是我们可以把大模型下载到本地部署,企业可以在内网部署大模型,进行 AI 落地的探索。这些模型通常会发布在 huggingface 网站上,这个网站可以说是 AI 界的 Github 了。
参数量
以 DeepSeek 为例,我们在 huggingface 下载 DeepSeek-R1 模型时会看到 14B、32B、671B,指的是不同参数版本,参数越高,表示越强大,当然成本也越高。这里的 B 指的是 Billion(10亿),R1 最高配置 671B 也就是 6710 亿参数,也就是我们说的满血版,而其他的是蒸馏版。
在本地部署的 DeepSeek-R1 大模型,满血版跑起来需要超过 400GB 的显存,一般人可跑不起,而 14B 需要 9GB 显存,4060Ti 16G 的显卡勉强能跑。
因为训练和运行大模型需要用到大量的 GPU 资源,NVIDIA 公司股票自 2023 年开始大涨,成了最大的受益者。
量化版本
到社区下载时,一般我们选择 GGUF 后缀的文件,GGUF(GPT-Generated Unified Format)是目前本地 AI 社区最流行的一种模型文件格式。
之后我们会看到 Q4_K_M 等字样,这指的是模型的量化版本。量化就是用更少的比特来表示权重(可以类比为把高清图片转存为压缩后的 JPG ),从而减小模型大小和显存占用,但会牺牲一点精度。Q4_K_M 中的 Q4 意味着将每个参数从 16 位压缩到 4 位,K 表示 K-Quants ,一种量化方案, M 表示 Medium ,中等量化强度。Q4_K_M 是一种比较好的量化方式,在精度和大小之间取得了很好的平衡。
所以,当我们到社区下载一个模型,名称为 Gemma-4-26B-MoE-Q4_K_M.gguf ,我们就可以知道,这是 Google 的 Gemma-4 模型,是一个 260 亿参数的、采用 MoE 架构的、量化到 4 位的、中等量化强度的模型。
运行本地大模型
我们借助 Ollama 这样的开源工具应用,在本地运行和部署大语言模型,Ollama 安装简单但交互简陋。而 LM Studio 是另一个界面友好型的运行本地大模型的应用。
无论是本地部署也好,服务商提供的 API 也好,我们都可以借助客户端工具去连接模型。ChatBox 和 Cherry Studio 就是这样的工具,他们提供了友好的界面。
选择第三方服务商
不是所有人都有条件本地部署大模型,为了方便,有人选择像 硅基流动(SiliconFlow) 这样的第三方聚合平台,本质上是平台帮你部署好了大模型,你只需要按需按量购买使用即可,这有点像 AI 时代的“云”。
Token
无论是闭源模型还是开源模型,只要涉及到用 API 调用的方式使用 AI ,就会看到 Token 这个单词。Token 可以理解为 AI 处理数据的最小单位,可能是一个单词,也可能是一个词组。几乎所有 API 都是按 Token 使用量收费。
部分媒体把 Token 翻译成“词元”,但是这个翻译在网络上引起不少争议。
蒸馏
刚刚在介绍参数量时,提到 DeepSeek 除了671B版本之外,其他的都叫蒸馏版本,那什么是蒸馏呢?
蒸馏就是让一个庞大、笨重但极其聪明的大模型,去教导一个轻量、快速的小模型,让小模型在保持较低计算成本的同时,尽可能逼近大模型的性能。蒸馏可以是将闭源大模型输出的高质量回答作为训练材料,也可以是在训练过程中让小模型去逼近开源大模型的中间层特征。
蒸馏技术让边缘计算与移动端部署成为可能,小参数模型可以离线部署在手机、车机、IoT 设备上。
思维链(chain-of-thought,CoT)
DeepSeek-R1 和 V3 的区别是什么?R1 属于思考模型,擅长推理和逻辑。当我们向它提问,它首先会使用 思维链(chain-of-thought,CoT) 来思考问题,完成思考后才开始输出答案,逻辑性和准确率较高。而 V3 属于全能通用模型,反应速度快,知识面广,擅长日常对话。
由此可见,如果我们要润色一封邮件,选 V3;如果要解决一道奥数题,选 R1。
大模型架构:MoE & Dense
无论开源模型还是闭源模型,他们的底层设计都可以分为两类架构:
- 以早期 OpenAI GPT 2、GPT 3 和当前流行的 Google Gemma 模型为代表的 稠密架构(Dense)
- 以 DeepSeek-R1/V3、Google Gemini 为代表的 混合专家模型架构(Mixture-of-Experts, MoE)
在稠密架构(Dense)中,每当模型处理一个输入 Token 时,神经网络中的每一个参数都会被激活并参与计算,计算量大但训练简单。而混合专家架构(MoE)将模型的部分网络层拆分成多个独立的“专家”(Experts),推理时只有部分“专家”被激活,计算量低但训练成本很高。
虽然 MoE 推理时不需要所有专家的算力,但所有专家的参数都必须常驻在显存中,因此 MoE 模型对 GPU 的显存容量要求极高。这就是为什么现在的端侧模型(部署在手机、树莓派、车机的模型)首选 Dense 架构的主要原因。
多模态
像 chatGPT 这样只能用文字语言交流的,属于语言模型。而有一些模型专注于其他方面,例如专注于图像生成的图像模型,Midjourney 就是一个明星产品,Google 的 Nano banana 生图效果也十分优秀。开源版本的图像模型是 Diffusion ,可玩性较高,并催生了 Stable Diffusion、ComfyUI 这类AI图像定制工具,网友们常常通过 civitai(C站) 分享自己的 AI 作品。
此外,还有语音模型(如智普AI的GLM-4-Voice)、视频模型(如字节跳动的Seedance)。
然而,对于目标是星辰大海,是 通用人工智能(AGI) 的我们来说,不会满足于大模型只会一个技能。如果在训练的时候就混合了文字、语音、图像、甚至是视频的能力,这种全能的大模型就叫做 多模态模型,Gemini 就是其中之一。
