Skip to content

v1.8.0

Compare
Choose a tag to compare
@shibing624 shibing624 released this 26 Jan 10:20
· 139 commits to main since this release

v1.8版本

  1. 支持微调Mixtral混合专家MoE模型 Mixtral 8x7B,SFT中如果用lora微调模型,可以开启4bit量化和QLoRA--load_in_4bit True --qlora True以节省显存,建议设置--target_modules q_proj,k_proj,v_proj,o_proj,这样可以避免对MoE专家网络的MLP层量化,因为它们很稀疏且量化后会导致性能效果下降。
  2. 新增了支持微调deepseek, deepseekcoder, orion 模型,和对应的template。

Full Changelog: 1.7.0...1.8.0