Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ChatGLM是不是无法做RM和RL的训练? #107

Open
Leekinxun opened this issue Jul 21, 2023 · 8 comments
Open

ChatGLM是不是无法做RM和RL的训练? #107

Leekinxun opened this issue Jul 21, 2023 · 8 comments
Labels
question Further information is requested

Comments

@Leekinxun
Copy link

Describe the Question

Please provide a clear and concise description of what the question is.
chatglm2是不是做不了PPO相关的训练,我在rm模型中用了bert训练,但是无法合并参数,同时第四部的rl训练也显示ChatGLM2模型没有AutoModelForCausalLMWithValueHead,请问这种情况是不是只能换模型了

@Leekinxun Leekinxun added the question Further information is requested label Jul 21, 2023
@shibing624
Copy link
Owner

是,chatglm不是标准CausalLM

@Leekinxun
Copy link
Author

是,chatglm不是标准CausalLM

明白,感谢!

@shawnlihst
Copy link

是,chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗?

@C929-x
Copy link

C929-x commented Oct 6, 2023

是,chatglm不是标准CausalLM

我看B站有人这样做

@valkryhx
Copy link

是,chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗?

dpo可以跑chatglm2-6b
RM训练也支持
RLHF也支持
建议先用dpo跑,简单些。

@C929-x
Copy link

C929-x commented Oct 11, 2023

是,chatglm不是标准CausalLM

请问新增的DPO方法可以用于ChatGLM2吗?

dpo可以跑chatglm2-6b RM训练也支持 RLHF也支持 建议先用dpo跑,简单些。

请问chatglm支持吗,1版本的,不是chatglm2

@valkryhx
Copy link

DPO的目标函数是为了扩大Q-A1 和Q-A2 这两个文本之间的差异,跟生成文本的条件概率有关系,跟模型本身关系不大,可以试试trl的代码或者本项目的代码替换模型。

@C929-x
Copy link

C929-x commented Nov 3, 2023

DPO的目标函数是为了扩大Q-A1 和Q-A2 这两个文本之间的差异,跟生成文本的条件概率有关系,跟模型本身关系不大,可以试试trl的代码或者本项目的代码替换模型。

好的好的十分感谢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

5 participants