Melhorando a hierarquia de instruções em LLMs de fronteira

A OpenAI apresenta o IH-Challenge, um método para treinar Grandes Modelos de Linguagem (LLMs) a priorizar instruções confiáveis, melhorando a hierarquia de instruções, a capacidade de direcionamento seguro e a resistência a ataques de injeção de prompt.

10/03 às 08:00

Pontos principais

O IH-Challenge é uma iniciativa da OpenAI para aprimorar a segurança e a capacidade de direcionamento de LLMs.
O método treina modelos para dar prioridade a instruções consideradas confiáveis.
A melhoria na hierarquia de instruções é um foco central do desafio.
O objetivo é aumentar a resistência dos LLMs a ataques de injeção de prompt.
A iniciativa visa tornar os modelos mais seguros e previsíveis em seu comportamento.
A OpenAI busca avançar na pesquisa sobre a confiabilidade e controle de modelos de IA de ponta.

Mencionado nesta matéria

Organizações

OpenAI

Faz parte de

OpenAI lança IH-Challenge para melhorar segurança de LLMs

10 mar, 16:03 • Daily Journal

Fonte

Ver matéria original

OpenAI Blog • 10 mar, 08:00