IA permite reconstituir voz prejudicada por doença

08/jun 11:02
Por MATT O'brien, Associated Press / Estadão

A voz que Alexis “Lexi” Bogan tinha até o ano passado era exuberante.

Ela adorava cantar no carro as baladas de Taylor Swift e Zach Bryan, a plenos pulmões. Ela ria o tempo inteiro. Era soprano no coral da escola no ensino médio.

E então, aquela voz desapareceu.

Em agosto, os médicos removeram um tumor que ameaçava sua vida e estava localizado perto da parte posterior do cérebro. Um mês depois, quando retiraram o tubo de respiração, Bogan teve dificuldade para engolir e para dizer “oi” aos pais. Meses de reabilitação ajudaram na recuperação, mas sua fala ainda está prejudicada.

Em abril, a jovem de 21 anos recuperou sua antiga voz. Não a real, mas um clone de voz gerado por inteligência artificial, que ela pode invocar com um aplicativo de celular. Treinada a partir de uma cápsula do tempo de 15 segundos de sua voz de adolescente, extraída de um vídeo de demonstração de culinária que ela havia gravado para um projeto escolar, sua voz IA sintética, mas incrivelmente realista, agora pode dizer quase tudo que ela quiser.

Os riscos

Os especialistas alertam que o rápido desenvolvimento da tecnologia de clonagem de voz por IA pode ampliar os golpes telefônicos, perturbar eleições democráticas e ferir a dignidade das pessoas, vivas ou mortas, que não consentiram em ter sua voz recriada para dizer coisas que nunca disseram.

Ela já foi usada para produzir ligações automáticas falsas para eleitores americanos do Estado de New Hampshire, imitando a voz do presidente Joe Biden. Em Maryland, as autoridades recentemente acusaram o diretor esportivo de uma escola de usar IA para criar um clipe de áudio falso em que o diretor da mesma escola fazia comentários racistas.

Mas Bogan e uma equipe de médicos do grupo hospitalar Lifespan, no Estado americano de Rhode Island, acreditam ter encontrado um uso que justifica os riscos. Ela é uma das primeiras pessoas, e a primeira com seu quadro, a colaborar com a OpenIA, criadora do ChatGPT, para replicar uma voz perdida.

“Esperamos que Lexi seja a pioneira de uma tecnologia em desenvolvimento”, diz o Dr. Rohaid Ali, residente de neurocirurgia na faculdade de medicina na Universidade Brown e no Hospital de Rhode Island. Milhões de pessoas com AVCs debilitantes, câncer de garganta ou doenças neurodegenerativas poderiam se beneficiar, segundo ele.

Treinamento de uma voz IA

Bogan precisou voltar alguns anos para encontrar uma gravação adequada de sua voz para “treinar” o sistema IA na forma como ela falava. Era um vídeo em que ela explicava como fazer uma salada de macarrão.

Seus médicos intencionalmente alimentaram o sistema IA apenas com um clipe de 15 segundos. Os ruídos da cozinha tornavam as outras partes do vídeo imperfeitas. Isso também era o suficiente para a OpenIA, um aprimoramento da tecnologia anterior, que exigia amostras muito mais longas.

Conseguir algo útil em 15 segundos pode ser vital para futuros pacientes que não tenham nenhum vestígio de sua voz na internet. Pode ser que só exista uma breve mensagem de voz deixada para um familiar.

Quando fizeram o primeiro teste, todos ficaram impressionados com a qualidade do clone de voz de Bogan. “Fico tão emocionada toda vez que ouço a voz dela”, diz sua mãe, Pamela Bogan, com lágrimas nos olhos.

Uso de uma voz IA

Bogan digita algumas palavras em seu celular, e o aplicativo personalizado imediatamente as lê em voz alta.

Ela agora usa sua voz IA cerca de 40 vezes por dia, e oferece sugestões que espera que ajudem pacientes futuros. Um de seus primeiros experimentos foi conversar com as crianças na pré-escola onde trabalha como professora auxiliar.

Ela usa a voz nas lojas, para perguntar onde encontrar itens. A voz ajudou a se reconectar com o pai, que tem perda auditiva e estava tendo dificuldade de compreendê-la. E ficou bem mais fácil fazer um pedido em lojas de fast food.

“Olá, por favor, eu gostaria de um espresso gelado grande batido com leite de aveia e açúcar mascavo”, diz a voz IA de Bogan, enquanto ela segura o telefone para fora da janela do carro em um drive-thru do Starbucks.

“Acho incrível poder emitir esse som novamente”, diz ela. Isso está ajudando a aumentar sua confiança e restaurar uma parte de sua identidade que ela achava que estaria perdida para sempre.

Quem é o próximo?

Os médicos de Bogan começaram a clonar as vozes de outros pacientes interessados em Rhode Island, e esperam levar a tecnologia a hospitais do mundo inteiro. A OpenAI diz que está procedendo com cautela na expansão do uso da ferramenta, que é chamada de Voice Engine (mecanismo de voz), e ainda não está disponível para o público em geral.

Outras empresas que oferecem comercialmente serviços de geração de voz afirmam que proíbem imitações e abusos, mas variam na forma de aplicação dos seus termos de uso.

“Queremos garantir que todas as pessoas cuja voz seja usada no serviço estejam continuamente consentindo”, diz Jeff Harris, gerente do produto na OpenAI. “Queremos garantir que não seja usado em contextos políticos.”

Harris diz que o próximo passo da OpenAI é desenvolver uma ferramenta segura de “autenticação de voz” para que os usuários possam reproduzir a própria voz, com a possível exceção de profissionais médicos confiáveis que estejam ajudando um paciente.

Embora por enquanto ela precise mexer no celular para que seu mecanismo de voz fale, Bogan imagina um dispositivo IA que aprimore as soluções tradicionais para recuperação da fala, fundindo-se ao corpo humano ou traduzindo palavras em tempo real.

Ela não tem tanta certeza sobre o que vai acontecer à medida que for envelhecendo e sua voz IA continuar a soar como uma adolescente. Ela supõe que a tecnologia possa “envelhecer” sua voz IA.

Por ora, “embora eu não tenha recuperado totalmente a minha voz, tenho algo que me ajuda a reencontrá-la”, diz.

_

Esta matéria é uma versão resumida. A versão integral foi originalmente publicada em inglês em 13 de maio de 2024.

Últimas