Vídeo criado usando 7 IAs (pelo menos)!
Isso que estou desconsiderando as buscas no Google, o uso do tradutor, e as pequenas ferramentas "invisíveis" no processo. Ou seja, valendo pra conta apenas o que tive que instalar e configurar ou usar como um serviço de IA declaradamente.
Desde o roteiro com as falas que foram 100% criadas pelo Chat GPT, passando pela composição da música de fundo feita com a Amper, o Adobe Podcast que recriou minha voz a partir de um audio ruim, o Resemble AI que sintetizou minha voz em inglês para que eu gerasse um outro vídeo com dublagem, o BackgroundMattingV2 que removeu o fundo sem eu usar tela verde, o Stable Diffusion que gerou a imagem de escritório ao fundo a partir de um prompt de texto, até o fato de eu ficar "olhando pra câmera" quando na verdade estou lendo em outro monitor (NVidia Maxine AR SDK)! Tudo isso com apoio das I.A.s!
-
Vídeo com os melhoramentos:
-
Vídeo com áudio original baixo e com ruídos:
-
Vídeo traduzido com Google Translator e dublado em inglês pela IA:
Falas do roteiro
Esse daqui tem vídeo e notícia nova toda hora. O Chat GPT! Mas recorri ao nosso mais novo amigo, pra pedir o roteiro com as falas exatas que usei para gravar o vídeo. Observe que mesmo eu já tendo uma idéia clara do que precisava, consegui ter um retorno com uma estruturação bacana de apresentação de forma fuída. Abaixo a solicitação que fiz e a resposta:
Alexandre:
Crie um roteiro pra um vídeo onde eu falo sobre algumas ferramentas de inteligência artificial que apliquei no próprio vídeo. Com o Chat GPT eu gerei o roteiro do vídeo, com o NVidia Maxine eu fiz meus olhos parecerem olhar sempre para a câmera mesmo quando eu estou lendo o texto no monitor ao lado, com o Adobe Podcast transformei o áudio de baixa qualidade em um áudio que parece gravação em estúdio, gerei a dublagem do vídeo para inglês sintetizando a minha voz com o Resemble AI, recortei o fundo do vídeo com o BackgroundMattingV2 sem usar tela verde, e gerei a imagem do fundo a partir de uma descrição em texto com Stable Diffusion. Escreva o que eu preciso falar no vídeo, citando as ferramentas utilizadas.
Chat GPT:
Olá, sejam bem-vindos ao meu vídeo sobre inteligência artificial. Hoje, eu quero falar sobre algumas ferramentas incríveis de IA que eu utilizei neste próprio vídeo. Em primeiro lugar, o Chat GPT me ajudou a criar o roteiro do vídeo de maneira rápida e eficiente. Depois, utilizei o NVidia Maxine para fazer com que meus olhos parecessem sempre olhar para a câmera, mesmo quando eu estava lendo o texto no monitor ao lado. O Adobe Podcast foi uma ferramenta fundamental para melhorar a qualidade do áudio, transformando-o em um som de estúdio. Além disso, usei o Resemble AI para sintetizar minha voz e criar uma dublagem do vídeo em inglês. O BackgroundMattingV2 foi muito útil para recortar o fundo do vídeo sem precisar usar tela verde. Por fim, utilizei o Stable Diffusion para gerar a imagem de fundo do vídeo a partir de uma descrição em texto. Espero que tenham gostado deste vídeo sobre inteligência artificial e das ferramentas incríveis que utilizei. Obrigado por assistir.
Zóio de Tandera
Dentre todas as coisas que eu estava estudando, o NVidia Maxine AR SDK foi o que me motivou a fazer o vídeo. O resultado é impressionante, e funciona em tempo real! *Desde que vc tenha uma placa NVidia compatível.
Por mais que durante o vídeo eu estava olhando pro monitor do lado e lendo o roteiro, não perdi o contato visual com a câmera.
Isso pode ser usado em chamadas ao vivo (Zoom, Google Meet, Teams, etc.) com uma pequena gambiarra de espelhar uma janela para o OBS Studio e ligar a câmera Virtual.
- Demonstração do Gaze Redirection no NVidia Maxine:
Voz de veludo
Acredito que esse foi o mais fácil de usar, bastou arrastar o aúdio pro site do Adobe Podcast, não precisou nem fazer uma conta. Mas acredito que os resultados em inglês devam ficar melhores.
Para fazer a tradução e dublagem do vídeo, sintetizei minha voz em inglês com o Resemble AI. Gravando exemplos para a IA aprender meu timbre de voz, e depois joguei o texto gerado pelo Chat GPT no google tradutor. Com o resultado em mãos, gerei os áudios com base no meu modelo treinado de voz e fiz o encaixe dos blocos de audio manualmente no vídeo ajustando o tempo pra encaixar com o movimento labial. Ficou parecendo uma mistura de narração de GPS com Discovery Channel, mas achei muito legal.
Pra criar a música de fundo foram apenas alguns cliques no Amper Music.
Beijo na boca (e tela verde) é coisa do passado
...A moda agora é: gravar com fundo falso!
Aqui usei duas ferramentas,
- o BackgroundMattingV2 que removeu o fundo usando uma foto do fundo sem ninguém como referência, e sem eu precisar usar um Croma Key (tela verde/ azul).
Tive um pouco de dificuldade pra configurar os CUDA Cores corretamente na minha versão do WSL (Ubunto 22.04) e rodar o BackgroundMattingV2, mas depois de um pouco de persistência, deu tudo certo.
Não é a primeira vez que isso acontece, mas tentei baixar arquivos do site oficial da NVidia em português e os links estavam errados, mudei pra Inglês e foi. :/
- E o Stable Diffusion que gerou a imagem de escritório que utilizei pro fundo. Escrevi um artigo bem completo sobre o treinamento dos meus próprios modelos com Stable Diffusion, tá aqui mesmo no pedaço mais massa da interwebs.
.
Conclusão
Eu poderia ter usado coisas pra melhorar a imagem, fazer upscale, gerar elementos em 3D e muito mais. Mas já deu pra ter um gostinho do quanto essas ferramentas podem nos auxiliar com produtividade. :)
E aí? conta pra gente algo legal que você testou de IA ou deixa a sua opinião sobre o futuro dos empregos de desenvolvimento, arte e outras áreas de criação, que sempre pensávamos que não seriam substituídas.
Valeu!!
Impressionante! eu já conheço o ChatGPT e o Stable Diffusion.
Todas ferramentas que você utilizou são gratuítas?
Muito bom. Obrigado por compartilhar esse conteúdo riquíssimo! Estou estudando IA, e usando bastante Chat GPT e stable diffusion por aqui. Vou estudar as outras. Essa da NVidia Maxine AR SDK achei fantástica!
Sensacional!!
O vídeo ficou um absurdo de incrível! Que massa essa IA que faz você ficar olhando pra câmera e o áudio melhorado teve uma baita diferença. Parabéns.
Me inscrevi no canal e tenho uma pergunta. Você pretende criar mais conteúdos seus sobre IA? Se sim, uma sugestão é transformar o seu artigo sobre Stable Diffusion (não use o app Lensa) em vídeo. 🤙
É por esses motivos que eu amo IA's. Também acho interessante aproveitar este belo exemplo e 'reforçar'que as IA's estão aqui para nos AJUDAR, e não SUBSTITUIR a gente. Pelo menos não hoje 🤣🤣