入驻此处(首页+内页),送永久快审,百度隔日收录!
立即入驻
广告位布局
深度求索人工智能基础技术研究有限公司(简称“深度求索”或“DeepSeek”),成立于2023年,是一家专注于实现AGI的中国公司。

核心信

  • 成立时间: 2023年
  • 总部: 中国杭州
  • 使命: 通过探索AGI核心技术,让世界更美好
  • 专注领域: AGI基础研究(知识、推理、规划、记忆等)
  • 技术产品:
    • 通用多模态大模型DeepSeek-R1
    • 智能助手DeepSeek-R1-Plus
    • 开源模型系列DeepSeek LLM(7B/67B/MoE等)
  • 开源贡献:
    • 发布多款开源模型与工具库(如HugeCTR、MQBench)
    • 开放高质量语料库DeepSeek-R1-Data
  • 团队背景: 核心成员来自清华、北大、MIT等顶尖高校,及微软、谷歌等科技公司
  • 融资情况: 已完成超20亿人民币融资(截至2024年5月)

技术亮点

  1. MoE架构创新:
    • DeepSeek-MoE-16x8B模型仅用40%计算量达到同级稠密模型性能
    • 提出细粒度专家分割等原创技术
  2. 长上下文支持:
    • 标准模型原生支持128k tokens上下文
    • 通过扩展可达10M tokens
  3. 多模态理解:
    • 支持图像、视频、音频、文档等多模态输入
    • 在TextVQA、DocVQA等任务中保持SOTA
  4. 系统优化:
    • 自研高效推理框架DeepSpeed-Inference
    • 实现千亿模型单GPU部署

开源生态

项目名称 类型 亮点
DeepSeek LLM 大模型系列 包含7B/67B/MoE多种规格
DeepSeek-R1-Data 语料库 覆盖科技、金融等多领域
HugeCTR 训练框架 支持千亿参数模型训练
MQBench 量化工具 支持PTQ/QAT多种量化方式

性能对比

模型 MMLU GSM8K HumanEval 上下文窗口
DeepSeek-67B 85.3% 94.1% 43.9% 128k
GPT-4 86.4% 92.0% 67.0% 32k
LLaMA2-70B 68.9% 54.8% 12.8% 4k

注: 数据截至2024年5月公开测试结果

应用场景

  1. 智能研发:
    • 代码生成与补全
    • 技术文档理解
    • 多模态需求解析
  2. 金融分析:
    • 财报自动解读
    • 风险预测
    • 投资策略生成
  3. 教育医疗:
    • 个性化教学
    • 医学影像分析
    • 科研文献挖掘

发展路线图

  • 2023 Q3: 发布基础架构DeepSeek-7B
  • 2024 Q1: 推出多模态模型DeepSeek-R1
  • 2024 Q4(预计): 实现万亿参数模型训练
  • 2025(规划): 探索神经符号系统结合

作为中国AGI领域的新锐力量,DeepSeek正在通过持续的技术突破推动大模型技术的发展。其开源的举措和创新的MoE架构尤其受到学术界和工业界的关注。

相关导航