Improving instruction hierarchy in frontier LLMs
A OpenAI apresenta o IH-Challenge, um método para treinar Grandes Modelos de Linguagem (LLMs) a priorizar instruções confiáveis, melhorando a hierarquia de instruções, a capacidade de direcionamento seguro e a resistência a ataques de injeção de prompt.
|
10/03 às 08:00
Pontos principais
- O IH-Challenge é uma iniciativa da OpenAI para aprimorar a segurança e a capacidade de direcionamento de LLMs.
- O método treina modelos para dar prioridade a instruções consideradas confiáveis.
- A melhoria na hierarquia de instruções é um foco central do desafio.
- O objetivo é aumentar a resistência dos LLMs a ataques de injeção de prompt.
- A iniciativa visa tornar os modelos mais seguros e previsíveis em seu comportamento.
- A OpenAI busca avançar na pesquisa sobre a confiabilidade e controle de modelos de IA de ponta.
Mencionado nesta matéria
Organizações
OpenAI
