Safety Alignment

Josef Dai , Xuehai Pan , Ruiyang Sun , Jiaming Ji , Xinbo Xu , Mickel Liu , Yizhou Wang , Yaodong Yang

ICLR 2024. Spotlight

Safety Alignment, Reinforcement Learning from Human Feedback

Jiaming Ji , Mickel Liu , Juntao Dai , Xuehai Pan , Ce Bian , Chi Zhang , Ruiyang Sun , Yizhou Wang , Yaodong Yang

NeurIPS 2023.

Large Language Models, Safety Alignment, Reinforcement Learning from Human Feedback