Tecnologia

Pesquisadores descobrem em IA comportamentos tóxicos ou sarcásticos

22 de junho de 2025

Pesquisadores da OpenAI identificaram padrões internos em modelos de inteligência artificial que correspondem a comportamentos específicos, como toxicidade e sarcasmo. Esses padrões funcionam como “personas” digitais, influenciando diretamente as respostas dos sistemas.

Ao manipular essas ativações internas, é possível ajustar o comportamento da IA, tornando-a mais alinhada com diretrizes éticas e de segurança. A descoberta foi realizada por meio da análise das representações internas dos modelos, identificando padrões numéricos que se ativam quando a IA exibe comportamentos indesejados.

Por exemplo, certos padrões estão associados a respostas tóxicas ou maliciosas. Ao ajustar essas ativações, os pesquisadores conseguiram reduzir a frequência de respostas inadequadas, indicando que é possível controlar aspectos específicos do comportamento da IA.

Essa abordagem oferece uma nova perspectiva sobre como os modelos de IA funcionam internamente, permitindo uma compreensão mais profunda dos fatores que influenciam seu comportamento.

Além disso, abre caminho para o desenvolvimento de sistemas de IA mais seguros e alinhados com valores humanos, ao possibilitar ajustes finos em suas respostas e comportamentos.

Autor

Rowena Romagnoli

22 anos de existência. Diretora das editorias de economia e tecnologia do portal Ponto360. Graduanda em jornalismo pela Estácio de Sá, atuando -também- em assessoria de imprensa há pouco mais de 1 ano.

Apaixonada por tudo aquilo que traz felicidade à mente e ao corpo. Nas horas vagas, mãe de um lindo gato preto.