2、大模型时代

约 3266 字大约 11 分钟

2026-04-14

大语言模型（LLM）

由于 Transformer 架构支持并行，研究人员终于可以利用海量的数据和庞大的算力去训练拥有数十亿、数百亿甚至上万亿参数的语言模型。这些拥有超大量参数的语言模型，称为 大语言模型（Large language models，LLM），简称大模型。

语言模型的本质，就是一个概率机器，它只会玩“词语接龙”游戏：根据前面的词，预测下一个最有可能出现的词。例如，当我们输入“今天天气真”，它会预测下一个词最可能是“好”。

2018 年，OpenAI 基于 Transformer 搞出了 GPT-1（Generative Pre-trained Transformer），Google 则搞出了 BERT。可以说是 ChatGPT 和 Gemini 的前身。

闭源模型

2022 年底，OpenAI 的 AI 聊天机器人 ChatGPT 横空出世，彻底引爆了 AI 浪潮。

早在 2019 年，OpenAI 就接受了微软超过百亿美元的投资，ChatGPT 的出世让微软迅速将 GPT 能力整合进全线产品（Copilot），试图在 Bing 搜索和 Office 领域颠覆传统的交互模式；Google 经过一段时间的资源整合，也推出了 Gemini 系列模型；由 OpenAI 前核心成员创立的 Anthropic 推出的 Claude 系列模型在逻辑推理、代码生成和安全性上成为 GPT 极其强劲的对手。

无论是 GPT、Gemini 还是 Claude ，都属于闭源模型，我们只能在官方网站或APP中使用，或者调用官方提供的 API 。这些模型我们称为闭源模型。

开源模型

有一些公司为了抢占市场或提高知名度，选择把大模型的权重公开开放，也就是开源模型。例如：

2023 年 Meta 开源了 LLaMA 模型；
2024 年底，深度求索开源了 DeepSeek-V3 模型，一个月后的2025年春节前夕，又开源了 DeepSeek-R1 模型，火爆出圈，推动了国内 AI 的浪潮；
2025 年阿里开源了 Qwen 3.5 模型；
2026 年 Google 开源了 Gemma 4 模型，DeepSeek 发布了 V4 系列模型。

大模型架构：MoE & Dense

无论开源模型还是闭源模型，他们的底层设计都可以分为两类架构：

以早期 OpenAI GPT 2、GPT 3 和当前流行的 Google Gemma 模型为代表的 稠密架构（Dense）
以 DeepSeek-R1/V3、Google Gemini 为代表的 混合专家模型架构（Mixture-of-Experts, MoE）

在稠密架构（Dense）中，每当模型处理一个输入 Token 时，神经网络中的每一个参数都会被激活并参与计算，计算量大但训练简单。而混合专家架构（MoE）将模型的部分网络层拆分成多个独立的“专家”（Experts），推理时只有部分“专家”被激活，计算量低但训练成本很高。

虽然 MoE 推理时不需要所有专家的算力，但所有专家的参数都必须常驻在显存中，因此 MoE 模型对 GPU 的显存容量要求极高。这就是为什么现在的端侧模型（部署在手机、树莓派、车机的模型）首选 Dense 架构的主要原因。

下载开源模型

开源模型的好处是我们可以把大模型下载到本地部署，企业可以在内网部署大模型，进行 AI 落地的探索。这些模型通常会发布在 huggingface 网站上，这个网站可以说是 AI 界的 Github 了。

参数量

以 DeepSeek 为例，我们在 huggingface 下载 DeepSeek-R1 模型时会看到 14B、32B、671B，指的是不同参数版本，参数越高，表示越强大，当然成本也越高。这里的 B 指的是 Billion（10亿），R1 最高配置 671B 也就是 6710 亿参数，也就是我们说的满血版，而其他的是蒸馏版。

在本地部署的 DeepSeek-R1 大模型，满血版跑起来需要超过 400GB 的显存，一般人可跑不起，而 14B 需要 9GB 显存，4060Ti 16G 的显卡勉强能跑。

因为训练和运行大模型需要用到大量的 GPU 资源，NVIDIA 公司股票自 2023 年开始大涨，成了最大的受益者。

量化版本

到社区下载时，一般我们选择 GGUF 后缀的文件，GGUF（GPT-Generated Unified Format）是目前本地 AI 社区最流行的一种模型文件格式。

之后我们会看到 Q4_K_M 等字样，这指的是模型的量化版本。量化就是用更少的比特来表示权重（可以类比为把高清图片转存为压缩后的 JPG ），从而减小模型大小和显存占用，但会牺牲一点精度。Q4_K_M 中的 Q4 意味着将每个参数从 16 位压缩到 4 位，K 表示 K-Quants ，一种量化方案， M 表示 Medium ，中等量化强度。Q4_K_M 是一种比较好的量化方式，在精度和大小之间取得了很好的平衡。

所以，当我们到社区下载一个模型，名称为 Gemma-4-26B-MoE-Q4_K_M.gguf ，我们就可以知道，这是 Google 的 Gemma-4 模型，是一个 260 亿参数的、采用 MoE 架构的、量化到 4 位的、中等量化强度的模型。

蒸馏

刚刚在介绍参数量时，提到 DeepSeek 除了671B版本之外，其他的都叫蒸馏版本，那什么是蒸馏呢？

蒸馏就是让一个庞大、笨重但极其聪明的大模型，去教导一个轻量、快速的小模型，让小模型在保持较低计算成本的同时，尽可能逼近大模型的性能。蒸馏可以是将闭源大模型输出的高质量回答作为训练材料，也可以是在训练过程中让小模型去逼近开源大模型的中间层特征。

蒸馏技术让边缘计算与移动端部署成为可能，小参数模型可以离线部署在手机、车机、IoT 设备上。

运行本地大模型

我们借助 Ollama 这样的开源工具应用，在本地运行和部署大语言模型，Ollama 安装简单但交互简陋。而 LM Studio 是另一个界面友好型的运行本地大模型的应用。

无论是本地部署也好，服务商提供的 API 也好，我们都可以借助客户端工具去连接模型。ChatBox 和 Cherry Studio 就是这样的工具，他们提供了友好的界面。

2026年，Ollama 和 LM Studio 都已经有了自带的图形界面，ChatBox 和 Cherry Studio 不再是必须

模型参数

无论是本地部署还是调用 API，调用模型时都可以调节一些参数，来微调模型的效果。本地部署的通常可以在 LM Studio 的模型设置中调节，调用 API 的情况可以写入到请求的 JSON 中。

注意，这些参数不是必传的，如果不传，模型会使用默认值。大模型API是无状态、无记忆的，这意味着如果你想用一个非默认参数值，每次请求 API 时都要带上它。

{
  "model": "your-model-name-here",
  "messages": [
    {
      "role": "system",
      "content": "你是一个资深的研究员。"
    },
    {
      "role": "user",
      "content": "请介绍一下人工智能的发展历程。"
    }
  ],
  "temperature": 0.7,   
  "top_p": 0.9,         
  "top_k": 40,  
  "max_tokens": 1024, 
  "presence_penalty": 0.1, 
  "frequency_penalty": 0.1, 
  "repetition_penalty": 1.1,
  "stop": ["<|im_end|>", "User:"]
}

temperature（温度）

用来控制模型生成文本随机性或创造力的核心数值。温度越高，模型越有创造力，回答得越发散，温度越低，模型越保守，回答得越稳定。

低温度（通常为 0.0 - 0.3）：严谨与确定，适合代码生成、逻辑推理、事实问答等
中等温度（通常为 0.4 - 0.7）：平衡与自然，适合日常对话、内容创作等
高温度（通常为 0.8 - 1.0+）：发散与创造，适合头脑风暴、创意写作等

top_p（核采样）

模型会将所有候选词按概率从高到低排序并累加，当累加的概率值达到设置的 P 值（比如 0.9）时，就会把剩下那些低概率的词全部丢弃。这可以有效过滤掉极不靠谱的废话。

低 top_p（通常为 0.1 - 0.5）：更保守，更集中，适合需要精确和可预测输出的任务
高 top_p（通常为 0.8 - 1.0）：更随机，更多样化，适合需要创造性和多样性的任务

通常建议 Temperature（温度）和 Top-P（核采样）只挑选其中一个进行大幅度调整，另一个保持默认值即可

top_k

如果设置 K=40，模型在每次生成下一个词时，就只会在概率排名前 40 的词库里去选，排名 41 及以后的词直接被硬性淘汰。这能进一步防止模型在思维发散时“跑偏”，保证生成内容的下限。

低 top_k（通常为 1 - 10）：更保守，更集中，适合需要精确和可预测输出的任务
高 top_k（通常为 40 - 100）：更随机，更多样化，适合需要创造性和多样性的任务

max_tokens（最大输出长度）

控制模型生成文本长度。例如，当 max_tokens=1024 时，模型会生成最多 1024 个 token 的文本。如果你发现模型总是话说一半就停了，可以检查并把这个值调大。

context_length（上下文长度）

决定了模型在一次对话中能记住多长的前文。数值越大，模型能回顾的历史信息越完整，长篇阅读能力越强，但同时它也会呈几何倍数地疯狂吞噬显存（VRAM）或内存（RAM）。

repetition_penalty（重复惩罚）

降低那些已经在上文和历史记录中出现过的词再次被选中的概率。数值设置得越大，模型就越倾向于去寻找不同的新词汇。（通常在 1.1 到 1.2 之间比较合适）

frequency_penalty（频率惩罚）/ presence_penalty（存在惩罚）

粒度更细的重复惩罚，一个词出现得越多，它下次被选中的概率就被扣得越狠

stop

可以在这里定义一个数组，当云端模型在生成文本时一旦输出了这个数组里的任何一个词，就会立刻切断生成，这可以有效防止模型自导自演、代替用户说话。

选择第三方服务商

不是所有人都有条件本地部署大模型，为了方便，有人选择像硅基流动（SiliconFlow）这样的第三方聚合平台，本质上是平台帮你部署好了大模型，你只需要按需按量购买使用即可，这有点像 AI 时代的“云”。

Token

无论是闭源模型还是开源模型，只要涉及到用 API 调用的方式使用 AI ，就会看到 Token 这个单词。Token 可以理解为 AI 处理数据的最小单位，可能是一个单词，也可能是一个词组。几乎所有 API 都是按 Token 使用量收费。

部分媒体把 Token 翻译成“词元”，但是这个翻译在网络上引起不少争议。

思维链（chain-of-thought，CoT）

DeepSeek-R1 和 V3 的区别是什么？R1 属于思考模型，擅长推理和逻辑。当我们向它提问，它首先会使用 思维链（chain-of-thought，CoT） 来思考问题，完成思考后才开始输出答案，逻辑性和准确率较高。而 V3 属于全能通用模型，反应速度快，知识面广，擅长日常对话。

由此可见，如果我们要润色一封邮件，选 V3；如果要解决一道奥数题，选 R1。

然而，随着 DeepSeek V3.2 和 V4 这样的混合新模型出现，同一个模型兼具了推理模型和通用模型的特点。通常，在页面上会以“深度思考”或“Thinking”这样的字眼出现，当你想让 AI 做一些数学、代码、推理的任务时，就可以把这个选项勾上。

多模态

像 chatGPT 这样只能用文字语言交流的，属于语言模型。而有一些模型专注于其他方面，例如专注于图像生成的图像模型，Midjourney 就是一个明星产品，Google 的 Nano banana 生图效果也十分优秀。开源版本的图像模型是 Diffusion ，可玩性较高，并催生了 Stable Diffusion、ComfyUI 这类AI图像定制工具，网友们常常通过 civitai（C站）分享自己的 AI 作品。

此外，还有语音模型（如智普AI的GLM-4-Voice）、视频模型（如字节跳动的Seedance）。

然而，对于目标是星辰大海，是 通用人工智能（AGI） 的我们来说，不会满足于大模型只会一个技能。如果在训练的时候就混合了文字、语音、图像、甚至是视频的能力，这种全能的大模型就叫做 多模态模型，Gemini 就是其中之一。