Skip to content

DeepSeek火了,这些AI知识必知必会

1360字约5分钟

人工智能

2025-02-12

DeepSeek 火得一塌糊涂,公司周一已经部署了内网的 DeepSeek-R1,电梯里也都听到大家在各种讨论。看来 DeepSeek 已经掀起了一股狂热。但是等等,你们在说的 14B、32B、671B、满血、蒸馏,还有什么硅基流动,Qwen、O1、Ollama 都是些啥意思?我怎么一个字也听不懂,赶紧补补知识。


AI 知识串讲

首先 OpenAI 和 DeepSeek 这些都是公司或机构名,ChatGPTDeepSeek chat 是他们对应的产品,GPT-4、DeepSeek-r1 这些是大模型(LLM)的名称。国内外比较有名的AI公司及其对应产品、模型的清单我已经让 DeepSeek 整理出来了,可以参考文章末尾的表格。

以 DeepSeek 为例,因为 DeepSeek 官网经常服务器繁忙,有些人就想通过第三方API去访问或者尝试本地部署。

对于第三方API,很多人选择硅基流动(SiliconFlow)这个平台,在这上面购买了tokens之后就可以使用其API去访问,本质上等于通过API访问平台方帮你搭好的模型。硅基流动可以理解为是模型提供方(服务商),类似的平台还有各个AI公司官方,如 OpenAI API、Google Gemini API、DeepSeek API 等,以及其他的服务商。购买服务后,通常他们会给你一个API KEY,需要配合客户端使用。

有一些大模型开源(如DeepSeek-R1),我们可以免费下载到本地部署运行,而另一些不开源(如OpenAI的o1),这种就只能购买他们的服务或API。开源的通常可以到 github 上面找到开源项目,但是下载一般都会放在一个叫 huggingface 的网站,可以说这个网站是 AI 界的 github 了。

对于本地部署,我们下载 DeepSeek-r1 模型时看到的 14B、32B、671B,指的是不同参数版本,参数越高,表示越强大,当然成本也越高。这里的 B 指的是 Billion(10亿),最高配置 671B 也就是 6710 亿参数,也就是我们说的满血版,而其他的是蒸馏版(或者叫阉割版)。当我们想在本地部署大模型时,满血版的跑起来需要超过400GB的显存,一般人可跑不起,而 14B 需要 9GB 显存,4060Ti 16G 的显卡勉强能跑。

而本地部署要如何部署呢?就得借助 Ollama 这样的开源工具应用,用来在本地运行和部署大语言模型,Ollama安装简单但交互简陋(命令行)。而 LM Studio 是另一个界面友好型的运行本地大模型的应用。

无论是本地部署也好,API也好,我们都可以借助客户端工具去连接模型。ChatBoxCherry Studio 就是这样的工具,他们提供了友好的界面。

你可能在下载模型时看到 MoE 这样的字眼,这是指模型的架构,全称是Mixture of Experts(混合专家模型)。像 DeepSeek-R1 和 GPT-4 这样的模型就是 MoE 的架构,擅长推理和逻辑。与MoE相对应的概念是稠密(Dense)模型,可以理解为它是一个“通才”模型。


(下方内容由 DeepSeek 生成)

国外AI公司/研究机构

名称代表性产品大模型/技术
OpenAIChatGPT、DALL·E 3、SoraGPT-3、GPT-4、GPT-4o、DALL·E系列、CLIP、Whisper、GPT-o1
Google (Google AI)Google Assistant、Gemini、BardPaLM 2、Gemini、BERT、Transformer、LaMDA、Imagen、AlphaGo、AlphaFold
DeepMind (Google旗下)AlphaGo、AlphaFold、WaveNetAlpha系列(AlphaGo、AlphaFold、AlphaStar)、Gopher、Gemini(联合开发)
MicrosoftCopilot、Azure AITuring-NLG、Phi-3、Orca、KOSMOS系列、MAI-1(研发中)
Meta (FAIR)Llama开源社区、Meta AI助手Llama系列(Llama 3)、OPT、SAM、Segment Anything、Massively Multilingual Speech
AnthropicClaude助手Claude系列(Claude 3)
Hugging FaceTransformers库、AI社区平台BLOOM、BART、开源社区支持的多模型(如LLaMA、Stable Diffusion)
NVIDIANeMo框架、AI芯片(H100/A100)NeMo Megatron、ChipNeMo、视觉模型(如GAN)、CUDA生态
Stability AIStable Diffusion、Stable AssistantStable Diffusion系列(SD 3)、Stable LM
MidJourneyMidJourney图像生成工具专有图像生成模型(未公开名称)
Tesla自动驾驶FSD、Optimus机器人Dojo超算、自动驾驶视觉大模型
IBMWatson Assistant、Watson StudioWatsonX、Granite系列、Project CodeNet

国内AI公司/研究机构

名称代表性产品大模型/技术
百度 (Baidu)文心一言、百度搜索ERNIE系列(ERNIE 4.0)、PLATO、文心大模型
科大讯飞 (iFLYTEK)讯飞星火、语音输入法星火大模型(SparkDesk)、认知智能大模型
阿里巴巴 (Alibaba)通义千问、钉钉智能助理通义系列(Qwen、Qwen-VL)、EMO、AnimateDiff-Lightning
腾讯 (Tencent)腾讯混元助手、腾讯云AI混元大模型(Hunyuan)、PhotoMaker
华为 (Huawei)盘古大模型、昇腾芯片盘古系列(气象、制药)、云雀大模型
商汤科技 (SenseTime)商量大模型、SenseNova平台书生系列(InternLM2)、日日新大模型
智谱AI (Zhipu)智谱清言、GLM智能体GLM系列(GLM-4、CogView)
深度求索 (DeepSeek)DeepSeek Chat、Moonshot AIDeepSeek-R1、DeepSeek-V3
字节跳动 (ByteDance)豆包、云雀平台云雀大模型、Boximator(视频生成)
零一万物 (01.AI)万知助手Yi系列大模型(Yi-34B/9B)
月之暗面 (Moonshot)Kimi智能助手Moonshot大模型(千亿参数长文本)