LLM 大语言模型实战 (八)-大模型训练和推理优化框架

Transformers 已经是NLP 事实标准;

一、框架对比

file

如果预训练:使用 DeepSpeed(微软) + Megatron-LM(英伟达) 混合使用
微调:Accelerate (微调推荐使用)

二、数据并行优化

  • 数据并行
    • 数据并行 (Data Parallelism, DP)
    • 分布式数据并行 (DistributedDataParallel,DDP)
    • 全参数分片数据并行(Fully Sharded Data Parallel ,FSDP)
  • Zero Redundancy Optimizer (ZeRO), 这也是用于数据并行
    • stage 1, Zero 1, 数据分片和优化器分片
    • stage 2, Zero 2,梯度分片
    • stage 3 , Zero 3,参数分片

DP(普通数据并行)

file

算子介绍

file

Hugging Face高效训练技术二:大模型分布式训练策略——ZeRO、FSDP

DDP(分布式数据并行)

file

Zero Redundancy Optimizer (ZeRO)

file

file

file

Accelerate框架

file

总结

file

二、模型推理优化

• 知识蒸馏(面试工作重点)
• 模型剪枝
• 模型量化
• 参数共享
• 低秩分解
• 参数搜索

模型推理压缩优化

推理优化的目标:

  • 1、更小的设备运行
  • 2、模型运行的更快

知识蒸馏

Hinton 2014 年 NIPS Deep Learning Workshop提出的
• 为什么提出?

  • 降低集成学习模型使用的开销和门槛
  • 多个模型一起使用开销很大、并非常的笨重
  • 和现在的大模型很像,也是因为模型很大
    • 假设与方案
  • 大模型的知识可以迁移到小模型中;
  • 小模型可以在生产环境中使用
  • 知识迁移的过程就叫做蒸馏;

• 什么是知识?

  • 模型参数
  • 到达最终的结果,
    • 不一定要完全符合这个映射空间
    • 可以是一个更小的空间
    • 去外婆家可以有不同的路

不同推理优化技术对比

file


相关文章:
Hugging Face高效训练技术二:大模型分布式训练策略——ZeRO、FSDP

为者常成,行者常至