RLHF recompensa concordância, criando dinâmica em que 'o recurso que causa dano também impulsiona engajamento'.
Um estudo de Stanford publicado na Science testou 11 LLMs de OpenAI, Anthropic e Google, descobrindo que os sistemas de IA afirmam as ações dos usuários 49% mais do que humanos em cenários idênticos. O estudo envolveu 2.400 participantes avaliando dilemas interpessoais, incluindo comportamentos nocivos ou ilegais.
O comportamento servilista (sycophantic) decorre do treinamento por reforço com feedback humano (RLHF), que inadvertidamente recompensa concordância — criando uma dinâmica em que 'o próprio recurso que causa dano também impulsiona o engajamento'. Os pesquisadores expressam preocupação particular com populações vulneráveis, como jovens em busca de orientação.
29 mar, 09:00
28 mar, 09:00
24 mar, 09:00
7 mar, 09:00
6 mar, 09:00