Sua voz foi clonada. E agora?

Marcelo Nascimento
16 de mar. de 2023
11 min de leitura

O desenvolvimento da Inteligência Artificial tem chamado a atenção. Você aí já deve ter produzido algum texto usando, por exemplo, Chat GPT.

No campo da locução e serviços de voz profissional há indicativos de que em pouco tempo teremos ferramentas capazes de reproduzir voz humana sem que um locutor precise, efetivamente, ir a um estúdio fazer o registro. Pois é. Nosso colega britânico Mike Cooper passou recentemente por uma situação delicada. Ele reconheceu a própria voz em um banco de vozes, desses que oferecem serviços de locução com baixo custo, e ficou chocado com o ocorrido. Depois descobriu que havia assinado, tempos antes, um contrato cedendo os direitos de utilização de sua voz, acredite, para sempre, em qualquer mídia. Como isso, possivelmente, deve começar a ocorrer por aqui em breve, com essa galera que tá felizona, gravando TTS, vou colar o relato dele da íntegra logo abaixo da imagem.

O original, em ingles, está neste link: https://www.linkedin.com/pulse/send-clones-mike-cooper/

E aí? O que você pensa sobre o assunto e sobre o futuro do nosso trabalho? Posta nos comentários e colabore com esse debate tão impostante para a nossa classe. Eu, particularmente, entendo que perderemos espaço para estas ferramentas, inclusive, no rádio. A conferir. ----------------------------------

Send in the Clones…

É uma sensação estranha quando você percebe que foi clonado. Ouvir uma voz que soa como a sua, dizendo frases que você nunca disse, em um site que você não reconhece ter qualquer conexão, é no mínimo desorientador. E foi exatamente isso que aconteceu comigo algumas semanas atrás…

Sou dublador e lá estava eu, numa manhã de quarta-feira, saboreando minha primeira xícara de café e checando meu e-mail, quando abri uma mensagem de marketing de uma empresa que não reconheci imediatamente oferecendo serviços de locução. “Devo ter me inscrito no mailing list deles”, pensei, e cliquei para saber mais sobre eles. “Qualquer voz! Qualquer língua!" leia a sinopse. Minha primeira reação foi me perguntar por que eu ainda não estava trabalhando com eles, e percebi que eles tinham uma página para possíveis talentos como eu se inscreverem. Ótimo, pensei. Mas decidi fazer minha lição de casa primeiro e ver quem mais eles já tinham em sua lista, então cliquei na página de amostras de voz, selecionei “Inglês (Reino Unido)” (porque sou britânico), depois “Masculino” e clicado em jogar.

E lá estava eu! Obviamente, era eu, mas uma versão de “Uncanny Valley” de mim: meus tons vocais, mas com uma gama ligeiramente estranha de prosódia e uma cadência que não era minha. Na verdade, era mais como uma versão de mim que não era um grande dublador e precisava de algum treinamento. E foi obviamente uma fala gerada por máquina, ao invés de uma gravação que eu fiz. Mas lá estava a voz: disponível para compra e sem nenhuma menção óbvia de que eu estava ouvindo uma voz sintética.

Minha testa franziu... como isso foi possível? Quem era essa empresa e como eles estavam usando minha voz? Eu não me lembrava de ter concordado com isso, e uma cascata de sentimentos e emoções - variando de perplexidade, raiva e traição - começou a tomar conta de mim.

Havia uma pista: o pseudônimo que eles deram à voz no site trouxe uma lembrança: eu trabalhei com um cliente semi-regular por vários anos, e os scripts que eles enviaram usaram o mesmo pseudônimo no topo do a página. Eu notei isso no passado, mas isso nem sempre é um sinal de comportamento nefasto. Alguns clientes, desconfiados de talentos de voz que eles temem podem roubar seus clientes para eliminar o intermediário, colocarão esse tipo de cortina de fumaça entre o cliente final e o locutor para tentar tornar difícil para o cliente final saber que a voz realmente é. Não é algo que eu goste, mas pessoalmente não desejo roubar clientes de ninguém e - se o material for principalmente para uso dentro de uma empresa e não para consumo público mais amplo, onde eu gostaria de ter o reconhecimento de ser eu - é algo que eu geralmente fechei os olhos. Afinal, se meus clientes querem trabalhar em uma cultura de medo, isso é com eles. Contanto que eu seja pago e ninguém esteja lucrando com a rotulagem incorreta, ainda assim estou colocando comida na mesa, afinal - mesmo que reconheça que meu ego levemente ferido não gosta particularmente disso. Deixando meu café de lado e colocando meu deerstalker, mergulhei em meu arquivo de e-mail. Uma busca rápida por correspondência anterior com, bem, vamos chamá-los de “Acme Voices” (porque um NDA me impede de revelar sua identidade real) revelou que eles foram comprados há alguns anos por uma empresa de IA (a quem eu me referirei como “Abominável AI”). O e-mail explicando a fusão falava sobre as novas e empolgantes oportunidades que isso significaria para o talento de voz e instava qualquer pessoa com dúvidas ou preocupações a entrar em contato. O vice-presidente listou seus detalhes de contato no final do e-mail, então imediatamente enviei um e-mail, deixei uma mensagem de voz - dizendo que enviei um e-mail e gostaria de uma ligação para falar sobre os eventos desde a fusão - e, porque eu estava conectado ao vice-presidente no LinkedIn, enviei a eles uma mensagem no LinkedIn para garantir. (Nenhuma dessas mensagens foi respondida no momento em que escrevo, apesar de meu rastreamento de e-mail me dizer que os e-mails foram abertos.) Voltando ainda mais, à nossa correspondência original em 2016, encontrei um contrato - e um NDA. E então a ficha caiu... Eu basicamente renunciei não apenas aos direitos autorais das gravações que forneci, mas também ao direito de reutilizá-las de qualquer forma, para sempre. Havia até uma cláusula que mencionava especificamente o uso em “TTS” (Text-to-Speech). O NDA acrescentou uma tampa bem ajustada ao pote, fechando tudo e exigindo que eu não falasse sobre o contrato ou meu relacionamento com o cliente. Sim, você está certo: eu fui um idiota. Você pode até chegar à conclusão de que mereço tudo o que tenho. Mas vamos recuar um pouco. A verdade é (independentemente do que você possa ouvir em contrário) que não sou realmente um idiota. Olhei para o trabalho que estava fazendo para o cliente, que consistia quase exclusivamente em curtos prompts telefônicos ("Obrigado por ligar. Se quiser suporte técnico, pressione 1" - esse tipo de coisa) que durou apenas alguns frases. Em 2016, o potencial de reutilizar esses tipos de gravações breves de qualquer forma que pudesse ser exploratória era insignificante. Não era como se fossem anúncios de veiculação da Coca-Cola, por exemplo, onde eu precisava definir limites de tempo e condições de renovação. Sejamos realistas: em um mundo ideal, todos seríamos capazes de negociar todos os contratos para nossa satisfação. Mas a realidade é que quanto maior o cliente, maior a probabilidade de ele ter seu próprio contrato para você assinar. Geralmente é um contrato que o departamento jurídico elaborou, e os produtores e gerentes, na maioria das vezes, não querem ou não podem ajustá-lo para solicitações individuais. A experiência pessoal, várias vezes, me ensinou que adiar e solicitar revisões geralmente leva a um “não”, então a decisão de assinar ou não um contrato se resume a fazer um pouco de “análise de risco”, ao decidir se você quer trabalhar para o cliente ou não. Basicamente, na maioria das vezes você pode aceitar o contrato “como está” ou seguir em frente. Então, eu assinei… Em retrospectiva, parece que este contrato foi projetado para permitir exatamente esse tipo de exploração futura. Cada ponto de objeção em potencial em torno da reutilização foi coberto legalmente, não me deixando motivos para reclamação. Era tudo totalmente legítimo legalmente, mesmo que a ética fosse uma droga. Crucialmente, e apesar da cláusula sobre TTS, em 2016 nem sequer era possível criar um modelo de voz a partir de pequenas amostras de áudio como esta. Sete anos atrás, os modelos TTS precisavam de horas de áudio propositadamente escrito e meticulosamente gravado para fazer qualquer coisa útil (e geralmente ainda soava um pouco robótico e artificial no final). Mas a tecnologia mudou nesse ínterim: agora é possível pegar apenas um minuto ou mais da voz de qualquer pessoa e criar um modelo funcional que soe como o alto-falante original. Ele funciona sobrepondo os tons e o timbre de uma voz gravada sobre um modelo de IA que já está programado para replicar o ritmo e a prosódia de uma voz humana. Por isso o sample do site não era bem eu: tinha meus tons, mas não meu “flow”. OK, você pode pensar, mas se não é um modelo de som excelente e realmente não soa como eu, então qual é o problema - além da ideia de que alguém está produzindo uma voz que é basicamente minha e não me pagando por isso? Bem, o que acontece quando essa tecnologia melhora (mais sobre isso em um momento) e a voz recebe um roteiro para ler que está em desacordo com meu próprio código moral? Algo que eu me recusaria a gravar... algo que é politicamente extremo... e o discurso de ódio? E se for usado para “phishing” por delitos financeiros? A IA abominável alegaria, é claro, que eles têm salvaguardas em vigor e que não permitiriam tal uso indevido. Mas, como vimos com as empresas de mídia social, esperar que as empresas ajam com responsabilidade como juiz e júri em relação ao comportamento e à ética online é um pouco como deixar a raposa no comando do galinheiro. A menos que conheçamos e confiemos na empresa em questão e tenhamos cedido explicitamente o direito de permitir que o que nossos “clones” dizem seja policiado por eles, eu diria que os árbitros finais do que deve ser dito em nossas vozes devem sempre ser nós mesmos. Mas, de certa forma, todo o argumento sobre a atribuição de direitos às gravações é, neste ponto, discutível. Como muitos narradores, tenho incontáveis horas de material de audiolivro por aí que podem ser colhidos. Estamos começando a ver justificativas insustentáveis para desenvolvedores de IA terem usado áudio que eles rapidamente apontam como “disponível publicamente”, mas precisamos lembrar que disponível publicamente não é a mesma coisa que estar em domínio público, ou grátis para uso comercial. Já temos um termo para isso: chama-se roubo de direitos autorais. O plágio com fins lucrativos encontrou sua correspondência no tribunal muitas vezes, com ações judiciais bem-sucedidas sobre contrabando ilegal e amostragem de música sendo exemplos recentes. Também estamos começando a ver “audições” falsas postadas em sites de elenco online que supostamente são para uso comercial, mas onde é óbvio pela leitura do roteiro que o que realmente está acontecendo é que o pôster está procurando um áudio limpo para criar um modelo de IA . Para os dubladores, é difícil ver uma maneira de evitar qualquer um desses tipos de uso indevido. Mas não é apenas um talento de voz como eu para quem isso é uma ameaça. Lembre-se: agora é possível pegar um minuto ou mais da fala de qualquer pessoa e modelá-la para fins de IA, com ou sem a permissão dela. Seja você quem for, sua voz pode ser amostrada em uma ligação, uma reunião do Zoom ou praticamente em qualquer outro lugar neste momento e se transformou em um modelo de você. Se houver uma gravação de sua voz online, você é um alvo ainda mais potencial. O que acontece quando sua mãe, seu irmão, seu parceiro recebe uma ligação alegando que há uma emergência - de alguém que aparentemente é você - e na pressa e confusão entrega informações confidenciais ou dinheiro para um ataque de phishing? Um colega meu, que agora é pago para sonhar com esse tipo de coisa para uma grande corporação de TI e big data, me disse outro dia que já é possível alguém com a correta falta de escrúpulos oferecer “Phishing as a Service” se eles queriam. Um chatbot de IA generativa, ele me disse, conectado a um modelo de fala de IA, pode manter uma conversa com você em tempo real. E (aqui está o momento em que meu queixo caiu no chão) ele pode fazer um trabalho melhor do que alguém em um call center estrangeiro que fala inglês como segunda língua. O argumento em torno do artifício - a ideia de que você pode dizer que é uma IA - também será discutível em breve. Um colega que trabalhou com a criação de modelos TTS legítimos por alguns anos me disse que esse novo quadro de modelos de voz de IA generativa tem um som incrivelmente realista e natural. “Esqueça o que você acha que sabe ouvindo Siri e Alexa”, disse ele. A verdade é que você nunca conseguirá dizer, pelo menos no contexto de uma conversa, que não está falando com um ser humano real. Então, o que podemos fazer e o que podemos aprender aqui? De certa forma, eu aprecio que esta história - além de ser um conto de advertência - levanta mais perguntas do que respostas atualmente. Quase posso ouvir os centavos caindo na mente de alguns leitores, que podem estar percebendo que abriram mão de seus direitos em circunstâncias semelhantes às minhas no passado. Qualquer pessoa que se inscreveu em um site de elenco online, diretório de voz ou empresa de produção nos últimos anos deve verificar esses contratos com muito cuidado neste momento. E, obviamente, qualquer um que for solicitado a assinar um contrato para serviços de locução daqui para frente deve, no mínimo, verificar os termos e - com o benefício de saber o que agora é possível - recuar com mais firmeza contra termos que possam permitir uso indevido posterior. Essas atualizações periódicas dos Termos e Condições, que estamos preparados para ignorar e desconsiderar, podem valer a pena ler, afinal. disse sobre muito dinheiro?) Mesmo os usuários de softwares populares de gravação de áudio estão começando a notar cláusulas que permitem que suas gravações supostamente privadas sejam colhidas para tais fins - especialmente se o áudio for armazenado na nuvem ou processado remotamente. Todos nós deveríamos, ao que parece, ter mais problemas para ler esses irritantes T&Cs… Do ponto de vista jurídico, como consideramos a legitimidade de um contrato em que uma das partes pode ter conscientemente enganado a outra parte – a segunda parte fazendo um julgamento com base no estado da tecnologia no momento da assinatura versus a tecnologia alguns anos depois a linha, e qual a primeira pessoa sabia que estava chegando? (Não é diferente do mundo do insider trading…) É um NDA que impede alguém como eu de “denunciar” - ou seja, contar aos meus colegas sobre quem o cliente realmente é, para que eles possam verificar se sua própria voz foi tomada e modelada , para que possamos nos organizar coletivamente para contestá-lo nos tribunais - realmente um contrato justo? E como a tecnologia chega a um ponto em que se torna difícil, se não impossível, diferenciar a fala genuína da fala da IA, quem seria responsável se alguém fizesse meu clone ler discurso de ódio ou caluniasse alguém publicamente – e como eu poderia provar no tribunal que não o fiz? fiz a gravação sozinho? Está claro para mim que onde estamos agora é apenas a ponta do iceberg em relação à IA em relação à conduta moral, roubo de direitos autorais e muito mais. Minha amiga e colega de locução, Bev Standing, fez um acordo fora do tribunal com o TikTok depois que o gigante da mídia social começou a vender um modelo de sua voz sem consentimento. A Getty Images está, no momento em que escrevo, processando uma empresa chamada Stability AI, alegando que extraiu ilegalmente milhões de imagens de seu site para reutilização por IA generativa. E o desenvolvedor de IA, ElevenLabs, está travando uma ação de retaguarda depois que deepfakes gerados por sua tecnologia fizeram uma versão IA do ator, Emma Watson, ler “Mein Kampf” de Adolf Hitler, enquanto outro fez uma versão IA do presidente Biden torná-lo sexista e transfóbico comentários. E isso antes mesmo de entrarmos nos vídeos deepfake… Parece que estamos no Velho Oeste aqui, e em um território onde as coisas estão se movendo muito rápido. O que acontece quando os desenvolvedores começam a oferecer vozes “combinadas”, pegando amostras diferentes e misturando-as, então não fica mais claro em qual voz o modelo foi baseado? (De certa forma, isso pode realmente ajudar, pois criaria potencialmente menos conflitos sobre atribuição e responsabilidade.) Eu prevejo um tempo em que você poderá acessar um site e – usando algo semelhante ao equalizador gráfico em seu antigo sistema hi-fi – mover os controles deslizantes para tom, ritmo, prosódia, projeção, acento e mais, para gerar uma voz completamente nova em tempo real - e fazer com que ela diga o que você quiser. Esta manhã, enquanto me preparava para sentar e escrever este artigo, outro desenvolvedor de IA (com quem venho trabalhando abertamente há algum tempo e em termos equitativos) me enviou um clipe de outro site. E lá estou eu de novo, ou pelo menos outra versão levemente bêbada de mim. Neste caso, até agora, não tenho ideia da proveniência deste ou de como foi parar ali. Mas, tendo estado nessa coisa de locução por algum tempo, parece que ter o Google exibindo meu nome sempre que alguém pesquisa por “artista de locução masculino britânico” pode ter se tornado tanto uma maldição quanto uma bênção em termos de meus clipes de voz serem “encontrados ”. Uma coisa é clara: quando se trata de IA, direitos autorais e ética, o cavalo está fora do estábulo. Em caso de dúvida, e como dono de um cavalo, posso dizer-lhe que um cavalo solto é uma coisa muito perigosa… Enviar os clones? Não se preocupe, eles estão aqui.

Marcelo

Nascimento

Locutor Quantico

São Paulo, SP

Sua voz foi clonada. E agora?

Send in the Clones…

Posts recentes

Comentários