Entenda como ChatGPT escolhe suas vozes

Semelhança de voz virtual com a da atriz americana Scarlett Johansson criou polêmica nas redes sociais e levou à suspensão do serviço

Pedro N. Jordão, da CNN
Scarlett Johansson discursa no palco da segunda arrecadação anual de fundos do furacão Sandy da Friends Of Rockaway, no Hudson Terrace, na cidade de Nova York, em 18 de novembro de 2014
Scarlett Johansson não teve nenhuma relação com a criação da voz Sky do ChatGPT  • Jamie McCarthy/Getty Images for Friends of Rockaway
Compartilhar matéria

O uso de assistentes virtuais de voz — como a Siri, da Apple; e a Alexa, da Amazon — é um recurso tecnológico cada vez mais comum para usuários de ferramentas online. No entanto, a possibilidade de semelhança dessas vozes com a de pessoas reais tem gerado debate sobre esse tipo de serviço. Mas como o ChatGPT escolhe suas vozes virtuais?

Na última segunda-feira (20), a OpenAI, empresa dona do ChatGPT, informou que iria suspender o uso da assistente de voz Sky (uma das cinco vozes do chatbot) pela semelhança dela com a voz da atriz americana Scarlett Johansson, 39. A própria atriz chegou a dizer que ficou irritada com a situação.

Para lidar com as críticas, além de suspender o uso de Sky (mas manter a funcionalidade de Breeze, Cove, Ember e Juniper), a OpenAI publicou um artigo em seu site negando a intenção de imitar a voz da atriz e explicando como as vozes virtuais são escolhidas e criadas.

"Acreditamos que as vozes de IA [inteligência artificial] não devem imitar deliberadamente a voz distinta de uma celebridade – a voz de Sky não é uma imitação de Scarlett Johansson, mas pertence a uma atriz profissional diferente, usando sua própria voz natural", diz o texto.

Para criar as cinco vozes existentes atualmente no ChatGPT (inclusive a Sky), a empresa fez parcerias com diretores de elenco e produtores premiados, o que fez a OpenAI receber inscrições de 400 atores e dubladores que tinham a intenção de colocar suas vozes no sistema -- cinco foram escolhidos.

A escolha de cada uma delas, segundo a empresa, passou pela observação de cinco características:

  • Atores de diversas origens ou que falassem vários idiomas;
  • Voz que parecesse atemporal;
  • Voz acessível e que inspirasse confiança;
  • Voz calorosa, envolvente, inspiradora de carismática e com um tom rico;
  • Voz natural e fácil de ouvir.

A publicação, no entanto, não detalha os critérios de decisão na observação dessas características.

Apesar da polêmica com Scarlett Johansson, a OpenAI diz ainda que planeja introduzir mais vozes ao ChatGPT, com o objetivo de atender cada vez melhor seus usuários. "Olhando para o futuro, você pode esperar ainda mais opções", finaliza.