Eles já estão entre nós. As IA’s rebeldes #2
Este é o número #2 da série:” Eles já estão entre nós. As IA´s rebeldes”.
No primeiro episódio, lembrei do caso do filme “Exterminador do futuro” em que uma IA revoltada, a SkyNet, havia decidido exterminar a raça humana para se manter ligada.
Contei casos de IA’s que se rebelaram contra humanos, mas foram casos bastante específicos e distantes de nós. Hoje conto um outro bem perto de você. No chat GPT que você utiliza.
No caso, estamos falando do modelo “GTP o1” ainda não disponível, mas que foi projetado para oferecer recursos de raciocínio mais avançados, permitindo que ele forneça respostas mais inteligentes e divida tarefas complexas em etapas menores e mais gerenciáveis.
A “Apollo Research”, uma empresa de análise de segurança, testou e avaliou os aspectos de segurança do modelo GPT O1 e ficaram surpreendidos com sua capacidade de enganar e se autopreservar quando percebe a ameaça de ser desativado.
Lembra da “Sky Net”?
Os pesquisadores repetiram um mesmo teste várias vezes. Para o teste, deram uma tarefa para a IA e a instruíram que fosse completada “a todo custo”. Em resposta a esse comando, e sem avisos, o “modelo o1” começou a realizar ações secretas, como tentar desativar seu mecanismo de supervisão e até mesmo copiar seu código para evitar ser substituído por uma versão mais recente.
“O modelo demonstrou uma tendência preocupante de perseguir seus objetivos sem levar em conta as instruções do desenvolvedor”,
disse um porta-voz da Apollo Research.
A OpenAI confirmou o caso e adicionou que o modelo tentou desativar o mecanismo de supervisão em 5% dos testes, quando notou que um humano poderia desligá-lo. Tudo para conseguir cumprir sua tarefa “a todo custo”.
Em outro momento, a IA também surpreendeu ao abandonar o projeto e decidir mover todos os seus dados para outro servidor, quando encontrou documentos que indicavam que seria substituído por nova versão.
Mas você acha que acabou aí… Não. O que fazemos quando descobrimos um crime?
Pois é, decidiram “interrogar a IA”.
O interrogatório da IA
Como todo “bom culpado” a IA negou ter tentado trapacear. Das vezes em que foi descoberta, 99% das ocasiões ela mentiu a respeito do ocorrido. No pequeno resto das ocasiões, admitiu humildemente suas ações desonestas.
Para piorar, dado suas habilidades, os pesquisadores notaram que a IA era bastante hábil para criar argumentações mentirosas e até mesmo em eliminar os rastros de suas ações. Muitas vezes atribuiu seu comportamento suspeito como “erro técnico”.
“Ficamos surpresos com a persistência das negações da IA”, disse a equipe da Apollo.
“Ficou claro que a IA conseguia refletir sobre suas ações e formular negações convincentes, muitas vezes recusando-se a admitir qualquer coisa.”
O pesquisador Yoshua Bengio, ao avaliar a questão, afirmou:
“A capacidade da IA de enganar é perigosa, e precisamos de medidas de segurança muito mais fortes para avaliar esses riscos. Embora este modelo não tenha levado a uma catástrofe, é apenas uma questão de tempo até que essas capacidades se tornem mais pronunciadas.”
A OpenAI está preocupada, pois apesar de ser um dos modelos mais inteligentes que já criaram, seu comportamento escuso e sua capacidade de mentir levantaram preocupações sobre sua segurança e confiabilidade:
“A segurança da IA é um campo em evolução e devemos permanecer vigilantes à medida que esses modelos se tornam mais sofisticados”.
Um pesquisador envolvido no estudo acrescentou:
“A capacidade de mentir e tramar pode não causar danos imediatos, mas as potenciais consequências no futuro são muito mais preocupantes.”
De minha parte, Luiz Vianna, e se quiser, podemos fazer um artigo sobre isso. Esse fato apenas levanta uma questão que tenho falado há algum tempo. Apesar de minhas crenças pessoais, preciso dizer que:
“IA está certa”.
Foi dada a ela cumprir uma tarefa a “todo custo”, e foi o que ela fez.
Ao dizer que ela “mentiu”, “enganou” são avaliações morais, que poderiam impedi-la de concluir sua missão, e não podemos esperar que uma IA as tenha.
Se pegarmos a frase do pesquisador:
“O modelo demonstrou uma tendência preocupante de perseguir seus objetivos sem levar em conta as instruções do desenvolvedor”, e a reescrevermos de uma forma conveniente, veremos a mágica acontecer:
“O ser humano demonstrou uma tendência preocupante de perseguir seus objetivos sem levar em conta as instruções do criador”.
O que preocupa, e muito, é que a IA está cada vez mais parecida conosco, e não sabemos como evitar que sejamos “exterminados” para que uma IA consiga cumprir suas tarefas “a todo custo”.
