v1.8.0
v1.8版本
- 支持微调Mixtral混合专家MoE模型 Mixtral 8x7B,SFT中如果用lora微调模型,可以开启4bit量化和QLoRA
--load_in_4bit True --qlora True
以节省显存,建议设置--target_modules q_proj,k_proj,v_proj,o_proj
,这样可以避免对MoE专家网络的MLP层量化,因为它们很稀疏且量化后会导致性能效果下降。 - 新增了支持微调deepseek, deepseekcoder, orion 模型,和对应的template。
Full Changelog: 1.7.0...1.8.0