Tentei clonar a voz do Filipe Deschamps e fiz ele cantar "Ai se eu te pego" (usando IA)

Oi, olá!

Sim, é mais ou menos isso mesmo que está no título e eu posso explicar. Então vamo lá!

Recentemente eu estava andando pelo YouTube e vi um corte da live de um streamer que acompanho chamado "Felps". Nesse vídeo eu descobri uma coisa que o pessoal começou a fazer chamada de "AI Cover", que basicamente são músicas com vozes feitas por IA com a voz de vários artistas (incluindo artistas que já morreram), o que gera um resultado estranhamente interessante.

Eu como um bom entusiasta de IA, fiquei muito entusiasmado com isso, e procurei saber como o pessoal fazia isso. Acabei chegando em uma comunidade no Discord chamada "AI HUB" e lá o pessoal treinava vários modelos para "RVC e So-Vits", que no caso, são IAs que fazem a conversão da voz, que é treinada usando um dataset feito com a voz limpa do artista ou pessoa. Daí então, começei a usar o RVC para fazer meus "testes".

RVC (Retrieval based Voice Conversion) é uma IA de conversão de voz fácil de usar baseada em VITS. O modelo do RVC foi pré-treinado com um dataset open-source de quase 50 horas com músicas licenciadas de alta qualidade. O RVC (além de outra IA chamada "So-Vits") é muito usado atualmente para a criação desses "AI Covers".

O RVC funciona primeiro encontrando uma voz de origem que seja semelhante à voz de saída. Isso é feito usando um algoritmo de similaridade de voz para comparar as duas vozes. Depois que uma voz de origem semelhante é encontrada, o modelo RVC aprende a converter a voz de origem na voz de destino. Isso é feito treinando o modelo com um dataset de gravações de voz de origem e destino. O modelo aprende a prever a voz de destino dada a voz de origem.

Uma das minhas ideias de uso, foi de treinar um modelo com a voz do nosso querido Filipe Deschamps para usar a voz dele em cima da voz de outras pessoas que eu tinha em mente (e por "outras pessoas" quero dizer sim de outros "Micheis Teló").

Para começar, eu teria que treinar um modelo com a voz do Filipe. Para isso, eu precisaria criar um dataset limpo com pelo menos 20 minutos de audio do Filipe. O que não foi muito difícil. Nesse caso, acabei usando o vídeo "secreto" sobre as tabcoins para treinar o modelo. Eu fiz uma limpeza no audio original e usei um script em Python para splitar o audio em vários audios menores de 10 segundos (o que é necessário para treinar o modelo).

Depois de criar o dataset, fiz o upload dele para o Google Drive e usei um Jupyter Notebook no Google Colab para treinar o modelo. No total eu treinei o modelo com 500 epochs (o que levou algumas horas). Só não treinei mais por causa da limitação de uso de GPU imposta pela Google Colab. Depois disso, baixei o model e deixei o modelo guardado por um tempo até eu ter as ideias de testes para usar com ele.

Para começar a testar a voz falada do Filipe, eu baixei um vídeo do Diego Fernandes (também conhecido como "Teló do Foguete") sobre 5 dicas para uma carreira sólida como programador. Depois, eu cortei o vídeo em partes de 1 minuto, já que o RVC não sabe lidar com trechos muito longos de áudio e renderizei todos os áudios com a voz do Filipe no RVC. Para finalizar, eu uni os áudios gerados em um vídeo. O resultado foi esse aqui:

(Click na imagem para abrir o link, ou abra ele em outra aba)

Sobre o resultado, eu achei que ficou mais ou menos consistente com a voz do Filipe. Em alguns momentos, a voz dele soa bem parecida com a textura da voz do Filipe, porém, com trejeitos de fala claros do Diego. Não acho que tenha ficado perfeito, mas, na minha opnião, ficou parecida com a voz do Filipe, mesmo que mesclada ao do Diego.

Para fazer o bendito "cover", eu levei um pouco mais de tempo. Primeiro eu baixei um áudio limpo do Michel Teló original cantando "Ai se eu te pego" (o que foi um pouco difícil, por incrível que pareça). Depois de baixar, eu usei um isolador de voz chamado: "Moises" para isolar a voz do cantor. Depois, dividi a acapella em audios de 30 segundos e enviei para o RVC com o mesmo modelo do Filipe. Depois, eu uni os audios resultantes, baixei um instrumental da música e tentei editar tudo usando o FL Studio. E o resultado final foi esse:

(Click na imagem para abrir o link, ou abra ele em outra aba)

Eu particularmente achei o resultado bem curioso, já que a voz do Filipe dessa vez ficou bem mais aguda mesclada com a voz do outro Teló, ao mesmo tempo em que achei engraçado e bizarro. Eu não sei se o resultado se deve ao fato de eu ter treinado o modelo usando audios falados ao invés de cantados (por razões óbvias).

Eu gostei bastante de ter feitos esses testes e eu acho bizarro como a IA está evoluindo ao ponto de conseguirmos criar deep fakes tão bizarramente parecidos com a pessoa original (não sei se é o caso com o modelo do Filipe, haha). Isso sem contar outras evoluções, como as imagens geradas por IA, que evoluiu assustadoramente em um periodo de 1 ano. Eu acredito que com o avanço de outras IAs, como IAs de geração de vídeo e linguagem natural, nós vamos poder ter vídeos praticamente inteiros feitos por IAs (talvez).

Caso você tenha alguma ideia do que eu possa fazer com o modelo do Filipe, ou tenha algum feedback, por favor, comente!

No mais, muito obrigado por ter lido até aqui :)

Que trabalho sensacional! Mostrei para toda minha família hahahah!!!

Sabe um teste que seria interessante? Pegar o vídeo original e redublar ele, só para comparação da fidelidade.

Oi Filipe! Muito obrigado pelo feedback! Sobre redublar um vídeo seu com a sua voz, eu até pensei em fazer, mas não sei se teria alguma diferença, mas vou tentar fazer depois para ter uma comparação. Mas o modelo em si, não acho que ficou perfeito, talvez se eu re-treinar ele com mais tempo e um dataset mais trabalhado, talvez ele se saia melhor nos resultados.
O Teló é gremista queria saber esse fake aí? ....haha

A ideia em si é bacana, porém acredito que com mais treino a síntese da fala deve melhorar (pois está beeem diferente da voz real dele). Gostei muito da iniciativa e estarei acompanhando os próximos resultados ;)

Obrigado! Também acabei percebendo isso quando fui realmente comparar. No futuro talvez eu re-treine o modelo para ver se retorna alguma diferença. Mas acho que tudo depende bem mais da voz original do que o modelo em si.

Rapaz, eu ri alto!

No vídeo com as dicas, para quem acompanha o conteúdo do canal, é fácil perceber as diferenças, especialmente de pausas e de entonação.

Já o vídeo com o Filipe Teló cantando ficou muito bom. Sem mais comentários!

Só falta uma gravação dele cantando num karaokê para a gente poder comparar. Será ele encara o desafio?

Bah, imagina se pusesse a gravação da cantoria num autotunning? hahaha

Pior que eu até coloquei um autotune com NewTune e Pitcher no FL, mas eu coloquei para não ficar tão presente.

IA zerada com sucesso.

Podemos ir pra computação quantica kkkk

SAUSHUAHUAHAHAH muito bom, rachei muito, é pra isso que eu gosto e aposto em IA's

kkkkkk muito bom 👏🏻👏🏻👏🏻

kkkkk Sensacional!!

Boa, ahahahah excelente ! É pra isso que pagamos internet !!!!

Interessante que quando se tem uma voz original "base" o resultado fica bem melhor do que um text-to-speech por melhor que seja pois consegue preservar a intonação, jeito, até erros na fala. Muito interessante.

Muito bacana seu projeto com esta IA ! É interessante perceber que, como o Felipe nunca cantou, a fala tentou realizar a entonação com o que já existia, com a musica ficando com a forma de alguém que de fato não possui o dom.

Agora gostaria de levantar uma questão, onde vou focar em audios: No momento, ainda é possivel identificar que se passa de fake. Todavia, imagine que chegue um dia que seja impossivel identificar se é verdade ou não.

O que ocorrerá em casos de crimes usando provas de midias como áudios ?

Qual será o abalo no mercado de musicas, quando for possivel sintetizar vozes, sem a necessidade de ser bons cantores ?

Imagine o abalo que isso irá gerar !

sensacional!!! Vou tentar replicar isso por aqui, podia jogar isso num github neh ?

Depois de ver Silvio Santos apresentando o Jornal Nacional, depois de ouvir Filipe Deschamps cantando ai se eu te pego, vem aí Fugidinha por Diego Fernandes

Mas falando sério, total mindblowing a capacidade que as IAs tem de fazer cada coisa incrível, acredito que só podem graças a mão humana que está ali no meio, imagino quando não for mais necessária a nossa intervenção, por que ela já sabe exatamente o que queremos e o que esperamos, ou ao ponto que tu simplemente vai pedir para a IA: "faça o Ratinho fazer um teste de DNA com o Silvio Santos e a Helen Ganzaroli", um simples comando, uma string, já vai ser o suficiente para a IA trabalhar...

Bem, gostaria de desejar meus parabéns pelo trabalho! Forte abraço!

isso ficou tão massinha!

Que delicinha ouvir isso. Nunca tinha ouvido essa musica assim, por vontade própria e por tanto tempo. Mas piadas a parte, esta ai a prova de que nem tudo é tão simples de fazer como os videos por ai mostram. É um processo longo e demorado, exigindo um bom conhecimento em várias temas diferentes e muita paciência. Parabéns pelo trabalho e muito grato por compartilhá-lo.

lembram de um video antigo, em que tinah diversos convidados. E cada um deles tinha uma letra no seu SETUP ? e as lestras formavam Michel Teló ? haehaiuehaiehiaue. Ta ai a IA tornando as trolagens reais. show!!!

É exatamente esse tipo de conteúdo que eu espero ver aqui hhahahah

Palmas para o profissional

Não e possivel que isso foi gerado por ia, ficou muito bom kkkkkkkkkkk

Ficou show de bola, hahahahahaha!

Que sensacional cara kkkk

Excelente jogada e descreveu tudo muito bem.

Cara que genial, é a primeira vez que eu ouço essa música por vontade própria e a primeira que eu me acabo de rir. Inclusive lembrei de quando uns 11 anos atrás o Michel Teló achou que seria uma maravilhosa ideia colocar um bot no twitter dele que respondia com uma imagem com o nome do usuário que interagiu com a hashtag de divulgação de uma música dele, dai foi um prato cheio pra galera mudar o nome de usuário e fazer o bot falar as coisas mais nonsense, bons tempos hahaha

Ficou irado! Hahahahah! Pra finalizar, você pode usar o D-ID pra criar a animação dele cantando. Eles tem um trial com alguns créditos que dá pra vc brincar.