有个疑问，计算Loss的时候并不是以reward_token_id最终loss计算的，为什么推理的时候可以以reward_token_id为准呢？ #921

woshixiaobai2019 · 2024-09-01T02:36:58Z

Line 311 in 081c8ca

def compute_loss(self, data, labels=None):

tcxia · 2024-09-02T08:04:59Z

您好，请问下您这边用什么推理的呢？

woshixiaobai2019 · 2024-09-02T08:07:00Z

抱歉，解决了，仔细读了一遍源码，没有问题

tcxia · 2024-09-02T08:07:50Z

@woshixiaobai2019 大佬，我其实想问下您这边如何推理的，我这边推理一直报错

woshixiaobai2019 · 2024-09-02T08:09:23Z

@woshixiaobai2019 大佬，我其实想问下您这边如何推理的，我这边推理一直报错

模仿modelling_interml里面的reward model推理

tcxia · 2024-09-02T08:14:22Z

@woshixiaobai2019 能给个完整路径参考吗？非常感谢~

woshixiaobai2019 · 2024-09-02T10:07:51Z

@woshixiaobai2019 能给个完整路径参考吗？非常感谢~

这里reward model的forward函数

Provide feedback