The Fine-Tuning Index / RLHF & Preference / #174

heng380/cs336_assignment-5

by heng380 · RLHF & Preference · updated 8mo ago

CS336 作业 5 实现, 附加作业里面的 dpo/rlhf 也完成了, 消融实验分析也放在飞书文档里面了, 仅供参考

18
momentum
35
stars
1
forks
#174
rank
View on GitHub →