Scaling laws for reward model overoptimization19 de outubro, 2022 às 04:00OpenAI BlogVer notícia original