Blanket

About
Posts
Tags
ja

Reinforcement Learning From Human Feedback

Training Language Models to Follow Instructions With Human Feedback (2022)

© Ryotaro Nakamura. All Rights Reserved.