Quero criar uma ferramenta ou aplicativo que transcreve áudios.
Possuo uma deficiência auditiva nas duas orelhas. Eu escuto devido aos implantes cocleares, mas não chega no nível de uma pessoa ouvinte.
Com isso, eu prefiro estudar lendo, mas tem muito conteúdo sendo em forma de vídeos (sem legenda) ou podcast e pouco em forma de texto.
Caso existe uma ferramenta ou aplicativo para isso, escreve para mim por favor. Se não existe, quero construir uma ferramenta ou aplicativo, mas não faço ideia como fazer isso.
Caso você tenha curiosidade da minha deficiência, pode perguntar para mim a vontade.
Posso sugerir o Whisper, é um modelo de reconhecimento de áudio e transcrição open source criado pela OpenAI (responsável pelo ChatGPT), a ferramenta de linha de comando até gera um SRT já sincronizado que pode ser usado. Só tem um detalhe: Acredito que você teria que extrair o áudio dos vídeos, não sei se ele aceita vídeo como input, outra coisa é que o tempo para fazer a transcrição demora um pouco se você não usar uma placa de vídeo.
Recomendo o modelo medium
, nos meus testes ele se mostrou o mais assertivo no reconhecimento.
Vantagens:
- Gratuito
- Permite usar a ferramenta pronta ou importar em código e customizar
Desvantagens:
- Quanto maior o modelo, mais memório de vídeo (caso GPU) ou RAM para conseguir rodar
Espero que seja útil!
Eu precisei fazer a transcrição para texto de alguns vídeos e utilizei, com sucesso, as instruções para Python desse site (tudo bem explicado, mas em inglês): https://pub.towardsai.net/extract-the-text-from-long-videos-with-python-81d30d655cfd
Oi Luisa, caso não encontre uma ferramenta para utilizar e queira realmente criar a sua própria ferramenta o nome da tecnologia que você precisa comumente é chamada de "Speech to Text" e está presente na maioria dos serviços cloud.
Por exemplo, o da AWS seria o Amazon Transcribe: https://aws.amazon.com/pt/transcribe/ | https://aws.amazon.com/what-is/speech-to-text/