核心信
- 成立时间: 2023年
- 总部: 中国杭州
- 使命: 通过探索AGI核心技术,让世界更美好
- 专注领域: AGI基础研究(知识、推理、规划、记忆等)
- 技术产品:
- 通用多模态大模型DeepSeek-R1
- 智能助手DeepSeek-R1-Plus
- 开源模型系列DeepSeek LLM(7B/67B/MoE等)
- 开源贡献:
- 发布多款开源模型与工具库(如HugeCTR、MQBench)
- 开放高质量语料库DeepSeek-R1-Data
- 团队背景: 核心成员来自清华、北大、MIT等顶尖高校,及微软、谷歌等科技公司
- 融资情况: 已完成超20亿人民币融资(截至2024年5月)
技术亮点
- MoE架构创新:
- DeepSeek-MoE-16x8B模型仅用40%计算量达到同级稠密模型性能
- 提出细粒度专家分割等原创技术
- 长上下文支持:
- 标准模型原生支持128k tokens上下文
- 通过扩展可达10M tokens
- 多模态理解:
- 支持图像、视频、音频、文档等多模态输入
- 在TextVQA、DocVQA等任务中保持SOTA
- 系统优化:
- 自研高效推理框架DeepSpeed-Inference
- 实现千亿模型单GPU部署
开源生态
项目名称 | 类型 | 亮点 |
---|---|---|
DeepSeek LLM | 大模型系列 | 包含7B/67B/MoE多种规格 |
DeepSeek-R1-Data | 语料库 | 覆盖科技、金融等多领域 |
HugeCTR | 训练框架 | 支持千亿参数模型训练 |
MQBench | 量化工具 | 支持PTQ/QAT多种量化方式 |
性能对比
模型 | MMLU | GSM8K | HumanEval | 上下文窗口 |
---|---|---|---|---|
DeepSeek-67B | 85.3% | 94.1% | 43.9% | 128k |
GPT-4 | 86.4% | 92.0% | 67.0% | 32k |
LLaMA2-70B | 68.9% | 54.8% | 12.8% | 4k |
注: 数据截至2024年5月公开测试结果
应用场景
- 智能研发:
- 代码生成与补全
- 技术文档理解
- 多模态需求解析
- 金融分析:
- 财报自动解读
- 风险预测
- 投资策略生成
- 教育医疗:
- 个性化教学
- 医学影像分析
- 科研文献挖掘
发展路线图
- 2023 Q3: 发布基础架构DeepSeek-7B
- 2024 Q1: 推出多模态模型DeepSeek-R1
- 2024 Q4(预计): 实现万亿参数模型训练
- 2025(规划): 探索神经符号系统结合
作为中国AGI领域的新锐力量,DeepSeek正在通过持续的技术突破推动大模型技术的发展。其开源的举措和创新的MoE架构尤其受到学术界和工业界的关注。