IA que transcreve os video do Youtube?

Alguem conhece alguma IA que consegue capturar as falas dos vídeos do YouTube e excrever textualmente?

caso queira fazer uma solução própria:

  • script que extrai o audio do video
  • baixar algum modelo de speech2text
  • script que usa o audio como input no modelo
  • done

recomendo o modelo openai/whisper.

Acredito que o melhor lugar custo-benefício para usar ele hoje é o Cloudflare AI

A propria IA do Google: Gemini. Eu sei que a versão paga faz isso, mas vale o teste na versão gratuita também.