Pesquisadores descobrem em IA comportamentos tóxicos ou sarcásticos

Pesquisadores da OpenAI identificaram padrões internos em modelos de inteligência artificial que correspondem a comportamentos específicos, como toxicidade e sarcasmo. Esses padrões funcionam como “personas” digitais, influenciando diretamente as respostas dos sistemas.

Leia mais: Meta processa empresa por aplicativo de IA que gera nudes falsos sem consentimento

Ao manipular essas ativações internas, é possível ajustar o comportamento da IA, tornando-a mais alinhada com diretrizes éticas e de segurança. A descoberta foi realizada por meio da análise das representações internas dos modelos, identificando padrões numéricos que se ativam quando a IA exibe comportamentos indesejados.

Por exemplo, certos padrões estão associados a respostas tóxicas ou maliciosas. Ao ajustar essas ativações, os pesquisadores conseguiram reduzir a frequência de respostas inadequadas, indicando que é possível controlar aspectos específicos do comportamento da IA.

Essa abordagem oferece uma nova perspectiva sobre como os modelos de IA funcionam internamente, permitindo uma compreensão mais profunda dos fatores que influenciam seu comportamento.

Além disso, abre caminho para o desenvolvimento de sistemas de IA mais seguros e alinhados com valores humanos, ao possibilitar ajustes finos em suas respostas e comportamentos.

Autor

Marcado:

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *