caso queira fazer uma solução própria:

  • script que extrai o audio do video
  • baixar algum modelo de speech2text
  • script que usa o audio como input no modelo
  • done