1930
27
1585
244
举报
发布时间:2025-07-30 17:59
全部评论
大家都在搜:
ppo和grpo中的r(/theta)是重要性采样的结果,这是由于off policy
4月前·陕西

6

分享
回复
这种课件怎么做的哇[感谢][感谢][感谢]
4月前·安徽

0

分享
回复
G R P O与sac,td3,谁的性能更好?
4月前·重庆

2

分享
回复
可否让普通数学知识的人也可以听懂呀[疑问]
4月前·中国香港

3

分享
回复
[赞][赞][赞]学到很多,老哥的视频是用什么做的哇
2月前·北京

0

分享
回复
8篇论文去哪里看?
3月前·北京

0

分享
回复
其实就是一个重要性采样的修正
2月前·北京

0

分享
回复
老哥视频质量有点高啊[看]
4月前·浙江

0

分享
回复
有一点不太懂,GRPO 的奖励还是通过奖励模型获得的吗(。・ω・。)?
4月前·福建

0

分享
回复
[赞][赞][赞]
2月前·湖南

0

分享
回复
[赞][赞][赞]
4月前·北京

0

分享
回复
[赞][赞]
4月前·安徽

0

分享
回复
...
4月前·山东

0

分享
回复
2月前·广东

0

分享
回复
AI算法工程师Power
AI算法工程师Power

粉丝5.3万获赞18.3万

猜你喜欢

推荐视频

最新视频

热榜推荐