ChatGLM是不是无法做RM和RL的训练？ #107

Leekinxun · 2023-07-21T09:07:28Z

Describe the Question

Please provide a clear and concise description of what the question is.
chatglm2是不是做不了PPO相关的训练，我在rm模型中用了bert训练，但是无法合并参数，同时第四部的rl训练也显示ChatGLM2模型没有AutoModelForCausalLMWithValueHead，请问这种情况是不是只能换模型了

shibing624 · 2023-07-23T01:49:00Z

是，chatglm不是标准CausalLM

Leekinxun · 2023-07-25T07:20:44Z

是，chatglm不是标准CausalLM

明白，感谢！

shawnlihst · 2023-09-15T03:38:16Z

是，chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗？

C929-x · 2023-10-06T16:17:00Z

是，chatglm不是标准CausalLM

我看B站有人这样做

valkryhx · 2023-10-11T14:32:57Z

是，chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗？

dpo可以跑chatglm2-6b
RM训练也支持
RLHF也支持
建议先用dpo跑，简单些。

C929-x · 2023-10-11T16:23:12Z

是，chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗？

dpo可以跑chatglm2-6b RM训练也支持 RLHF也支持建议先用dpo跑，简单些。

请问chatglm支持吗，1版本的，不是chatglm2

valkryhx · 2023-10-12T15:22:10Z

DPO的目标函数是为了扩大Q-A1 和Q-A2 这两个文本之间的差异，跟生成文本的条件概率有关系，跟模型本身关系不大，可以试试trl的代码或者本项目的代码替换模型。

C929-x · 2023-11-03T17:11:12Z

DPO的目标函数是为了扩大Q-A1 和Q-A2 这两个文本之间的差异，跟生成文本的条件概率有关系，跟模型本身关系不大，可以试试trl的代码或者本项目的代码替换模型。

好的好的十分感谢

Leekinxun added the question Further information is requested label Jul 21, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ChatGLM是不是无法做RM和RL的训练？ #107

ChatGLM是不是无法做RM和RL的训练？ #107

Leekinxun commented Jul 21, 2023

shibing624 commented Jul 23, 2023

Leekinxun commented Jul 25, 2023

shawnlihst commented Sep 15, 2023

C929-x commented Oct 6, 2023

valkryhx commented Oct 11, 2023

C929-x commented Oct 11, 2023

valkryhx commented Oct 12, 2023

C929-x commented Nov 3, 2023

ChatGLM是不是无法做RM和RL的训练？ #107

ChatGLM是不是无法做RM和RL的训练？ #107

Comments

Leekinxun commented Jul 21, 2023

Describe the Question

shibing624 commented Jul 23, 2023

Leekinxun commented Jul 25, 2023

shawnlihst commented Sep 15, 2023

C929-x commented Oct 6, 2023

valkryhx commented Oct 11, 2023

C929-x commented Oct 11, 2023

valkryhx commented Oct 12, 2023

C929-x commented Nov 3, 2023