Posso sugerir o Whisper, é um modelo de reconhecimento de áudio e transcrição open source criado pela OpenAI (responsável pelo ChatGPT), a ferramenta de linha de comando até gera um SRT já sincronizado que pode ser usado. Só tem um detalhe: Acredito que você teria que extrair o áudio dos vídeos, não sei se ele aceita vídeo como input, outra coisa é que o tempo para fazer a transcrição demora um pouco se você não usar uma placa de vídeo.

Recomendo o modelo medium, nos meus testes ele se mostrou o mais assertivo no reconhecimento.

Vantagens:

  • Gratuito
  • Permite usar a ferramenta pronta ou importar em código e customizar

Desvantagens:

  • Quanto maior o modelo, mais memório de vídeo (caso GPU) ou RAM para conseguir rodar

Espero que seja útil!