LLM 大语言模型实战 (八)-大模型训练和推理优化框架
Transformers 已经是NLP 事实标准;
一、框架对比
如果预训练:使用 DeepSpeed(微软) + Megatron-LM(英伟达) 混合使用
微调:Accelerate (微调推荐使用)
二、数据并行优化
- 数据并行
- 数据并行 (Data Parallelism, DP)
- 分布式数据并行 (DistributedDataParallel,DDP)
- 全参数分片数据并行(Fully Sharded Data Parallel ,FSDP)
- Zero Redundancy Optimizer (ZeRO), 这也是用于数据并行
- stage 1, Zero 1, 数据分片和优化器分片
- stage 2, Zero 2,梯度分片
- stage 3 , Zero 3,参数分片
DP(普通数据并行)
算子介绍
Hugging Face高效训练技术二:大模型分布式训练策略——ZeRO、FSDP
DDP(分布式数据并行)
Zero Redundancy Optimizer (ZeRO)
Accelerate框架
总结
二、模型推理优化
• 知识蒸馏(面试工作重点)
• 模型剪枝
• 模型量化
• 参数共享
• 低秩分解
• 参数搜索
模型推理压缩优化
推理优化的目标:
- 1、更小的设备运行
- 2、模型运行的更快
知识蒸馏
Hinton 2014 年 NIPS Deep Learning Workshop提出的
• 为什么提出?
- 降低集成学习模型使用的开销和门槛
- 多个模型一起使用开销很大、并非常的笨重
- 和现在的大模型很像,也是因为模型很大
• 假设与方案 - 大模型的知识可以迁移到小模型中;
- 小模型可以在生产环境中使用
- 知识迁移的过程就叫做蒸馏;
• 什么是知识?
- 模型参数
- 到达最终的结果,
- 不一定要完全符合这个映射空间
- 可以是一个更小的空间
- 去外婆家可以有不同的路
不同推理优化技术对比
相关文章:
Hugging Face高效训练技术二:大模型分布式训练策略——ZeRO、FSDP
为者常成,行者常至
自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)