Daily Journal

O Futuro da Informação

Scaling laws for reward model overoptimization

19 de outubro, 2022 às 04:00
OpenAI Blog