2、大模型时代
约 3266 字大约 11 分钟
2026-04-14
大语言模型(LLM)
由于 Transformer 架构支持并行,研究人员终于可以利用海量的数据和庞大的算力去训练拥有数十亿、数百亿甚至上万亿参数的语言模型。这些拥有超大量参数的语言模型,称为 大语言模型(Large language models,LLM),简称大模型。
语言模型的本质,就是一个概率机器,它只会玩“词语接龙”游戏:根据前面的词,预测下一个最有可能出现的词。例如,当我们输入“今天天气真”,它会预测下一个词最可能是“好”。
2018 年,OpenAI 基于 Transformer 搞出了 GPT-1(Generative Pre-trained Transformer),Google 则搞出了 BERT。可以说是 ChatGPT 和 Gemini 的前身。
闭源模型
2022 年底,OpenAI 的 AI 聊天机器人 ChatGPT 横空出世,彻底引爆了 AI 浪潮。
早在 2019 年,OpenAI 就接受了微软超过百亿美元的投资,ChatGPT 的出世让微软迅速将 GPT 能力整合进全线产品(Copilot),试图在 Bing 搜索和 Office 领域颠覆传统的交互模式;Google 经过一段时间的资源整合,也推出了 Gemini 系列模型;由 OpenAI 前核心成员创立的 Anthropic 推出的 Claude 系列模型在逻辑推理、代码生成和安全性上成为 GPT 极其强劲的对手。
无论是 GPT、Gemini 还是 Claude ,都属于闭源模型,我们只能在官方网站或APP中使用,或者调用官方提供的 API 。这些模型我们称为闭源模型。
开源模型
有一些公司为了抢占市场或提高知名度,选择把大模型的权重公开开放,也就是开源模型。例如:
- 2023 年 Meta 开源了 LLaMA 模型;
- 2024 年底,深度求索开源了 DeepSeek-V3 模型,一个月后的2025年春节前夕,又开源了 DeepSeek-R1 模型,火爆出圈,推动了国内 AI 的浪潮;
- 2025 年阿里开源了 Qwen 3.5 模型;
- 2026 年 Google 开源了 Gemma 4 模型,DeepSeek 发布了 V4 系列模型。
大模型架构:MoE & Dense
无论开源模型还是闭源模型,他们的底层设计都可以分为两类架构:
- 以早期 OpenAI GPT 2、GPT 3 和当前流行的 Google Gemma 模型为代表的 稠密架构(Dense)
- 以 DeepSeek-R1/V3、Google Gemini 为代表的 混合专家模型架构(Mixture-of-Experts, MoE)
在稠密架构(Dense)中,每当模型处理一个输入 Token 时,神经网络中的每一个参数都会被激活并参与计算,计算量大但训练简单。而混合专家架构(MoE)将模型的部分网络层拆分成多个独立的“专家”(Experts),推理时只有部分“专家”被激活,计算量低但训练成本很高。
虽然 MoE 推理时不需要所有专家的算力,但所有专家的参数都必须常驻在显存中,因此 MoE 模型对 GPU 的显存容量要求极高。这就是为什么现在的端侧模型(部署在手机、树莓派、车机的模型)首选 Dense 架构的主要原因。
下载开源模型
开源模型的好处是我们可以把大模型下载到本地部署,企业可以在内网部署大模型,进行 AI 落地的探索。这些模型通常会发布在 huggingface 网站上,这个网站可以说是 AI 界的 Github 了。
参数量
以 DeepSeek 为例,我们在 huggingface 下载 DeepSeek-R1 模型时会看到 14B、32B、671B,指的是不同参数版本,参数越高,表示越强大,当然成本也越高。这里的 B 指的是 Billion(10亿),R1 最高配置 671B 也就是 6710 亿参数,也就是我们说的满血版,而其他的是蒸馏版。
在本地部署的 DeepSeek-R1 大模型,满血版跑起来需要超过 400GB 的显存,一般人可跑不起,而 14B 需要 9GB 显存,4060Ti 16G 的显卡勉强能跑。
因为训练和运行大模型需要用到大量的 GPU 资源,NVIDIA 公司股票自 2023 年开始大涨,成了最大的受益者。
量化版本
到社区下载时,一般我们选择 GGUF 后缀的文件,GGUF(GPT-Generated Unified Format)是目前本地 AI 社区最流行的一种模型文件格式。
之后我们会看到 Q4_K_M 等字样,这指的是模型的量化版本。量化就是用更少的比特来表示权重(可以类比为把高清图片转存为压缩后的 JPG ),从而减小模型大小和显存占用,但会牺牲一点精度。Q4_K_M 中的 Q4 意味着将每个参数从 16 位压缩到 4 位,K 表示 K-Quants ,一种量化方案, M 表示 Medium ,中等量化强度。Q4_K_M 是一种比较好的量化方式,在精度和大小之间取得了很好的平衡。
所以,当我们到社区下载一个模型,名称为 Gemma-4-26B-MoE-Q4_K_M.gguf ,我们就可以知道,这是 Google 的 Gemma-4 模型,是一个 260 亿参数的、采用 MoE 架构的、量化到 4 位的、中等量化强度的模型。
蒸馏
刚刚在介绍参数量时,提到 DeepSeek 除了671B版本之外,其他的都叫蒸馏版本,那什么是蒸馏呢?
蒸馏就是让一个庞大、笨重但极其聪明的大模型,去教导一个轻量、快速的小模型,让小模型在保持较低计算成本的同时,尽可能逼近大模型的性能。蒸馏可以是将闭源大模型输出的高质量回答作为训练材料,也可以是在训练过程中让小模型去逼近开源大模型的中间层特征。
蒸馏技术让边缘计算与移动端部署成为可能,小参数模型可以离线部署在手机、车机、IoT 设备上。
运行本地大模型
我们借助 Ollama 这样的开源工具应用,在本地运行和部署大语言模型,Ollama 安装简单但交互简陋。而 LM Studio 是另一个界面友好型的运行本地大模型的应用。
无论是本地部署也好,服务商提供的 API 也好,我们都可以借助客户端工具去连接模型。ChatBox 和 Cherry Studio 就是这样的工具,他们提供了友好的界面。
2026年,Ollama 和 LM Studio 都已经有了自带的图形界面,ChatBox 和 Cherry Studio 不再是必须
模型参数
无论是本地部署还是调用 API,调用模型时都可以调节一些参数,来微调模型的效果。本地部署的通常可以在 LM Studio 的模型设置中调节,调用 API 的情况可以写入到请求的 JSON 中。
注意,这些参数不是必传的,如果不传,模型会使用默认值。大模型API是无状态、无记忆的,这意味着如果你想用一个非默认参数值,每次请求 API 时都要带上它。
{
"model": "your-model-name-here",
"messages": [
{
"role": "system",
"content": "你是一个资深的研究员。"
},
{
"role": "user",
"content": "请介绍一下人工智能的发展历程。"
}
],
"temperature": 0.7,
"top_p": 0.9,
"top_k": 40,
"max_tokens": 1024,
"presence_penalty": 0.1,
"frequency_penalty": 0.1,
"repetition_penalty": 1.1,
"stop": ["<|im_end|>", "User:"]
}temperature(温度)
用来控制模型生成文本随机性或创造力的核心数值。温度越高,模型越有创造力,回答得越发散,温度越低,模型越保守,回答得越稳定。
- 低温度(通常为 0.0 - 0.3):严谨与确定,适合代码生成、逻辑推理、事实问答等
- 中等温度(通常为 0.4 - 0.7):平衡与自然,适合日常对话、内容创作等
- 高温度(通常为 0.8 - 1.0+):发散与创造,适合头脑风暴、创意写作等
top_p(核采样)
模型会将所有候选词按概率从高到低排序并累加,当累加的概率值达到设置的 P 值(比如 0.9)时,就会把剩下那些低概率的词全部丢弃。这可以有效过滤掉极不靠谱的废话。
- 低 top_p(通常为 0.1 - 0.5):更保守,更集中,适合需要精确和可预测输出的任务
- 高 top_p(通常为 0.8 - 1.0):更随机,更多样化,适合需要创造性和多样性的任务
通常建议 Temperature(温度) 和 Top-P(核采样)只挑选其中一个进行大幅度调整,另一个保持默认值即可
top_k
如果设置 K=40,模型在每次生成下一个词时,就只会在概率排名前 40 的词库里去选,排名 41 及以后的词直接被硬性淘汰。这能进一步防止模型在思维发散时“跑偏”,保证生成内容的下限。
- 低 top_k(通常为 1 - 10):更保守,更集中,适合需要精确和可预测输出的任务
- 高 top_k(通常为 40 - 100):更随机,更多样化,适合需要创造性和多样性的任务
max_tokens(最大输出长度)
控制模型生成文本长度。例如,当 max_tokens=1024 时,模型会生成最多 1024 个 token 的文本。如果你发现模型总是话说一半就停了,可以检查并把这个值调大。
context_length(上下文长度)
决定了模型在一次对话中能记住多长的前文。数值越大,模型能回顾的历史信息越完整,长篇阅读能力越强,但同时它也会呈几何倍数地疯狂吞噬显存(VRAM)或内存(RAM)。
repetition_penalty(重复惩罚)
降低那些已经在上文和历史记录中出现过的词再次被选中的概率。数值设置得越大,模型就越倾向于去寻找不同的新词汇。(通常在 1.1 到 1.2 之间比较合适)
frequency_penalty(频率惩罚)/ presence_penalty(存在惩罚)
粒度更细的重复惩罚,一个词出现得越多,它下次被选中的概率就被扣得越狠
stop
可以在这里定义一个数组,当云端模型在生成文本时一旦输出了这个数组里的任何一个词,就会立刻切断生成,这可以有效防止模型自导自演、代替用户说话。
选择第三方服务商
不是所有人都有条件本地部署大模型,为了方便,有人选择像 硅基流动(SiliconFlow) 这样的第三方聚合平台,本质上是平台帮你部署好了大模型,你只需要按需按量购买使用即可,这有点像 AI 时代的“云”。
Token
无论是闭源模型还是开源模型,只要涉及到用 API 调用的方式使用 AI ,就会看到 Token 这个单词。Token 可以理解为 AI 处理数据的最小单位,可能是一个单词,也可能是一个词组。几乎所有 API 都是按 Token 使用量收费。
部分媒体把 Token 翻译成“词元”,但是这个翻译在网络上引起不少争议。
思维链(chain-of-thought,CoT)
DeepSeek-R1 和 V3 的区别是什么?R1 属于思考模型,擅长推理和逻辑。当我们向它提问,它首先会使用 思维链(chain-of-thought,CoT) 来思考问题,完成思考后才开始输出答案,逻辑性和准确率较高。而 V3 属于全能通用模型,反应速度快,知识面广,擅长日常对话。
由此可见,如果我们要润色一封邮件,选 V3;如果要解决一道奥数题,选 R1。
然而,随着 DeepSeek V3.2 和 V4 这样的混合新模型出现,同一个模型兼具了推理模型和通用模型的特点。通常,在页面上会以“深度思考”或“Thinking”这样的字眼出现,当你想让 AI 做一些数学、代码、推理的任务时,就可以把这个选项勾上。
多模态
像 chatGPT 这样只能用文字语言交流的,属于语言模型。而有一些模型专注于其他方面,例如专注于图像生成的图像模型,Midjourney 就是一个明星产品,Google 的 Nano banana 生图效果也十分优秀。开源版本的图像模型是 Diffusion ,可玩性较高,并催生了 Stable Diffusion、ComfyUI 这类AI图像定制工具,网友们常常通过 civitai(C站) 分享自己的 AI 作品。
此外,还有语音模型(如智普AI的GLM-4-Voice)、视频模型(如字节跳动的Seedance)。
然而,对于目标是星辰大海,是 通用人工智能(AGI) 的我们来说,不会满足于大模型只会一个技能。如果在训练的时候就混合了文字、语音、图像、甚至是视频的能力,这种全能的大模型就叫做 多模态模型,Gemini 就是其中之一。
