Vídeo criado usando 7 IAs (pelo menos)!

Isso que estou desconsiderando as buscas no Google, o uso do tradutor, e as pequenas ferramentas "invisíveis" no processo. Ou seja, valendo pra conta apenas o que tive que instalar e configurar ou usar como um serviço de IA declaradamente.

Desde o roteiro com as falas que foram 100% criadas pelo Chat GPT, passando pela composição da música de fundo feita com a Amper, o Adobe Podcast que recriou minha voz a partir de um audio ruim, o Resemble AI que sintetizou minha voz em inglês para que eu gerasse um outro vídeo com dublagem, o BackgroundMattingV2 que removeu o fundo sem eu usar tela verde, o Stable Diffusion que gerou a imagem de escritório ao fundo a partir de um prompt de texto, até o fato de eu ficar "olhando pra câmera" quando na verdade estou lendo em outro monitor (NVidia Maxine AR SDK)! Tudo isso com apoio das I.A.s!

Vídeo com os melhoramentos:
Vídeo com áudio original baixo e com ruídos:
Vídeo traduzido com Google Translator e dublado em inglês pela IA:

Falas do roteiro

Esse daqui tem vídeo e notícia nova toda hora. O Chat GPT! Mas recorri ao nosso mais novo amigo, pra pedir o roteiro com as falas exatas que usei para gravar o vídeo. Observe que mesmo eu já tendo uma idéia clara do que precisava, consegui ter um retorno com uma estruturação bacana de apresentação de forma fuída. Abaixo a solicitação que fiz e a resposta:

Alexandre:

Crie um roteiro pra um vídeo onde eu falo sobre algumas ferramentas de inteligência artificial que apliquei no próprio vídeo. Com o Chat GPT eu gerei o roteiro do vídeo, com o NVidia Maxine eu fiz meus olhos parecerem olhar sempre para a câmera mesmo quando eu estou lendo o texto no monitor ao lado, com o Adobe Podcast transformei o áudio de baixa qualidade em um áudio que parece gravação em estúdio, gerei a dublagem do vídeo para inglês sintetizando a minha voz com o Resemble AI, recortei o fundo do vídeo com o BackgroundMattingV2 sem usar tela verde, e gerei a imagem do fundo a partir de uma descrição em texto com Stable Diffusion. Escreva o que eu preciso falar no vídeo, citando as ferramentas utilizadas.

Chat GPT:

Olá, sejam bem-vindos ao meu vídeo sobre inteligência artificial. Hoje, eu quero falar sobre algumas ferramentas incríveis de IA que eu utilizei neste próprio vídeo. Em primeiro lugar, o Chat GPT me ajudou a criar o roteiro do vídeo de maneira rápida e eficiente. Depois, utilizei o NVidia Maxine para fazer com que meus olhos parecessem sempre olhar para a câmera, mesmo quando eu estava lendo o texto no monitor ao lado. O Adobe Podcast foi uma ferramenta fundamental para melhorar a qualidade do áudio, transformando-o em um som de estúdio. Além disso, usei o Resemble AI para sintetizar minha voz e criar uma dublagem do vídeo em inglês. O BackgroundMattingV2 foi muito útil para recortar o fundo do vídeo sem precisar usar tela verde. Por fim, utilizei o Stable Diffusion para gerar a imagem de fundo do vídeo a partir de uma descrição em texto. Espero que tenham gostado deste vídeo sobre inteligência artificial e das ferramentas incríveis que utilizei. Obrigado por assistir.

Zóio de Tandera

Dentre todas as coisas que eu estava estudando, o NVidia Maxine AR SDK foi o que me motivou a fazer o vídeo. O resultado é impressionante, e funciona em tempo real! *Desde que vc tenha uma placa NVidia compatível.

Por mais que durante o vídeo eu estava olhando pro monitor do lado e lendo o roteiro, não perdi o contato visual com a câmera.

Isso pode ser usado em chamadas ao vivo (Zoom, Google Meet, Teams, etc.) com uma pequena gambiarra de espelhar uma janela para o OBS Studio e ligar a câmera Virtual.

Demonstração do Gaze Redirection no NVidia Maxine:

Voz de veludo

Gaze Redirection no NVidia Maxine

Acredito que esse foi o mais fácil de usar, bastou arrastar o aúdio pro site do Adobe Podcast, não precisou nem fazer uma conta. Mas acredito que os resultados em inglês devam ficar melhores.

Para fazer a tradução e dublagem do vídeo, sintetizei minha voz em inglês com o Resemble AI. Gravando exemplos para a IA aprender meu timbre de voz, e depois joguei o texto gerado pelo Chat GPT no google tradutor. Com o resultado em mãos, gerei os áudios com base no meu modelo treinado de voz e fiz o encaixe dos blocos de audio manualmente no vídeo ajustando o tempo pra encaixar com o movimento labial. Ficou parecendo uma mistura de narração de GPS com Discovery Channel, mas achei muito legal.

Pra criar a música de fundo foram apenas alguns cliques no Amper Music.

Beijo na boca (e tela verde) é coisa do passado

...A moda agora é: gravar com fundo falso!

Aqui usei duas ferramentas,

o BackgroundMattingV2 que removeu o fundo usando uma foto do fundo sem ninguém como referência, e sem eu precisar usar um Croma Key (tela verde/ azul).

Gaze Redirection no NVidia Maxine

Tive um pouco de dificuldade pra configurar os CUDA Cores corretamente na minha versão do WSL (Ubunto 22.04) e rodar o BackgroundMattingV2, mas depois de um pouco de persistência, deu tudo certo.

Não é a primeira vez que isso acontece, mas tentei baixar arquivos do site oficial da NVidia em português e os links estavam errados, mudei pra Inglês e foi. :/

E o Stable Diffusion que gerou a imagem de escritório que utilizei pro fundo. Escrevi um artigo bem completo sobre o treinamento dos meus próprios modelos com Stable Diffusion, tá aqui mesmo no pedaço mais massa da interwebs. .

Conclusão

Eu poderia ter usado coisas pra melhorar a imagem, fazer upscale, gerar elementos em 3D e muito mais. Mas já deu pra ter um gostinho do quanto essas ferramentas podem nos auxiliar com produtividade. :)

E aí? conta pra gente algo legal que você testou de IA ou deixa a sua opinião sobre o futuro dos empregos de desenvolvimento, arte e outras áreas de criação, que sempre pensávamos que não seriam substituídas.

Valeu!!

Centaurus há 2 anos

Impressionante! eu já conheço o ChatGPT e o Stable Diffusion.

Todas ferramentas que você utilizou são gratuítas?

xambitow há 2 anos

Pra musica de fundo eu acabei indo com o Amper mesmo, que é pago. Mas confesso q foi por comodidade. O Resemble AI pra gerar minha voz em inglês, fui no trial que permite 300 segundos grátis de voz gerada. Usei uns 100 segundos. Mas também comodidade. Nestes dois casos foram coisas q eu mais queria logo fazer do que explorar mais a fundo alternativas. Todo resto foi 100% gratuito. ChatGPT, Google Tradutor (que nem considerei como IA pra conta) e Adobe Podcast foi só usar direto da Web. Stable Diffusion, NVidia Maxine e BackgroundMatting baixei o repositorio e configurei na minha máquina.

pelegrino há 2 anos

Muito interessante, salvando aqui também.

Ghizzi há 2 anos

Sensacional todas essas ferramentas, muito grato por compartilhar conosco, com certeza vai agregar em muitas ideias minhas!

viniciuslinhares há 2 anos

Muito bom. Obrigado por compartilhar esse conteúdo riquíssimo! Estou estudando IA, e usando bastante Chat GPT e stable diffusion por aqui. Vou estudar as outras. Essa da NVidia Maxine AR SDK achei fantástica!

clevertonandrade há 2 anos

Sensacional!!

scotti há 2 anos

Simplesmente incrível! Parabéns pelo trabalho e gratidão por compartilhar com a gente!

GabrielSozinho há 2 anos

O vídeo ficou um absurdo de incrível! Que massa essa IA que faz você ficar olhando pra câmera e o áudio melhorado teve uma baita diferença. Parabéns.

Me inscrevi no canal e tenho uma pergunta. Você pretende criar mais conteúdos seus sobre IA? Se sim, uma sugestão é transformar o seu artigo sobre Stable Diffusion (não use o app Lensa) em vídeo. 🤙

TreinadorBB há 2 anos

É por esses motivos que eu amo IA's. Também acho interessante aproveitar este belo exemplo e 'reforçar'que as IA's estão aqui para nos AJUDAR, e não SUBSTITUIR a gente. Pelo menos não hoje 🤣🤣