v1.8.0

shibing624 released this 26 Jan 10:20

· 139 commits to main since this release

v1.8版本

支持微调Mixtral混合专家MoE模型 Mixtral 8x7B，SFT中如果用lora微调模型，可以开启4bit量化和QLoRA--load_in_4bit True --qlora True以节省显存，建议设置--target_modules q_proj,k_proj,v_proj,o_proj，这样可以避免对MoE专家网络的MLP层量化，因为它们很稀疏且量化后会导致性能效果下降。
新增了支持微调deepseek, deepseekcoder, orion 模型，和对应的template。

Full Changelog: 1.7.0...1.8.0

Assets 2