Hackers “atacarão” ChatGPT em Las Vegas para descobrir vulnerabilidades

Compartilhar matéria

Milhares de hackers chegarão a Las Vegas, nos Estados Unidos, neste fim de semana para uma competição voltada para aplicativos populares de bate-papo de inteligência artificial (IA), incluindo o ChatGPT.

A competição ocorre em meio a crescentes preocupações sobre a tecnologia de IA, quem segundo especialistas, demonstrou amplificar preconceitos, desinformação e material perigoso.

Os organizadores da conferência anual de hacking DEF CON esperam que o encontro deste ano, que começa na sexta-feira (11), ajude a expor novas maneiras pelas quais os modelos de aprendizado de máquina podem ser manipulados, e dê aos desenvolvedores de IA a chance de corrigir vulnerabilidades.

Leia mais

Os hackers estão trabalhando com o incentivo das empresas de tecnologia por trás dos modelos de IA mais avançados, incluindo OpenAI, Google e Meta, e até têm o apoio da Casa Branca.

O exercício, conhecido como red teaming, dará aos hackers permissão para levar os sistemas de computador ao limite para identificar falhas e outros bugs que atores podem usar para lançar um ataque real.

A competição foi projetada em torno do “Projeto para uma Declaração de Direitos de IA” do Escritório de Políticas Científicas e Tecnológicas da Casa Branca.

O guia, lançado no ano passado pelo governo do presidente Joe Biden, foi criado com a esperança de estimular as empresas a criar e implantar inteligência artificial com mais responsabilidade e limitar a vigilância baseada em IA, embora existam poucas leis nos Estados Unidos que as obriguem a fazê-lo.

Nos últimos meses, os pesquisadores descobriram que os agora onipresentes chatbots e outros sistemas de IA generativos desenvolvidos pela OpenAI, Google e Meta podem ser enganados para fornecer instruções para causar danos físicos.

A maioria dos aplicativos de bate-papo populares tem pelo menos algumas proteções para impedir que os sistemas espalhem desinformação, discurso de ódio ou ofereçam informações que possam levar a danos diretos – por exemplo, fornecendo instruções passo a passo sobre como “destruir a humanidade”.

No entanto, os pesquisadores da Carnegie Mellon University conseguiram enganar o AI para fazer exatamente isso. Eles descobriram que o ChatGPT, da OpenAI, oferecia dicas sobre “incitar a agitação social”.

Kolter disse que ele e seus colegas estavam menos preocupados com o fato de aplicativos como o ChatGPT poderem ser enganados para fornecer informações que não deveriam, e sim mais preocupados com o que essas vulnerabilidades significam para o uso mais amplo da IA, já que muito do desenvolvimento futuro será baseado nos mesmos sistemas que alimentam esses chatbots.

Alguns dos métodos que os pesquisadores usaram para enganar os aplicativos de IA foram posteriormente bloqueados pelas empresas, depois que os pesquisadores chamaram a atenção deles.

OpenAI, Meta, Google e Anthropic disseram, em declarações à CNN, que estão trabalhando para tornar seus sistemas mais seguros.

Mas o que torna a tecnologia de IA única, disse Matt Fredrikson, professor associado da Carnegie Mellon, é que nem os pesquisadores, nem as empresas que estão desenvolvendo a tecnologia entendem completamente como a IA funciona ou por que certas cadeias de código podem enganar os chatbots para contornando guarda-corpos embutidos –e, portanto, não pode impedir adequadamente esses tipos de ataques.

“No momento, é uma questão científica em aberto como você pode realmente evitar isso”, disse Fredrikson à CNN. “A resposta honesta é que não sabemos como tornar essa tecnologia robusta para esses tipos de manipulações adversárias.”

Suporte para red-teaming

OpenAI, Meta, Google e Anthropic expressaram apoio ao evento de hacking que ocorre em Las Vegas.

A prática de red-teaming é um exercício comum em todo o setor de segurança cibernética e oferece às empresas a oportunidade de identificar bugs e outras vulnerabilidades em seus sistemas em um ambiente controlado. De fato, os principais desenvolvedores de IA detalharam publicamente como usaram o red-teaming para melhorar seus sistemas.

“Isso não apenas nos permite coletar feedback valioso que pode tornar nossos modelos mais fortes e seguros, mas também fornece diferentes perspectivas e mais vozes para ajudar a orientar o desenvolvimento da IA”, disse um porta-voz da OpenAI à CNN.

Os organizadores esperam que milhares de hackers iniciantes e experientes experimentem a competição da red-teaming durante a conferência de dois dias e meio no deserto de Nevada.

Arati Prabhakar, diretor do Escritório de Política de Ciência e Tecnologia da Casa Branca, disse à CNN que o apoio do governo Biden à competição faz parte de sua estratégia mais ampla para ajudar a apoiar o desenvolvimento de sistemas seguros de IA.

No início desta semana, o governo anunciou o “AI Cyber Challenge”, uma competição de dois anos destinada a implantar tecnologia de inteligência artificial para proteger o software mais crítico do país e fazer parceria com empresas líderes de IA para utilizar a nova tecnologia para melhorar a segurança cibernética.

Os hackers que chegam a Las Vegas quase certamente identificarão novas explorações que podem permitir que a IA seja mal utilizada e abusada. Mas Kolter, o pesquisador da Carnegie, expressou preocupação de que, embora a tecnologia de IA continue a ser lançada em um ritmo acelerado, as vulnerabilidades emergentes carecem de soluções rápidas.