Quero criar uma ferramenta ou aplicativo que transcreve áudios.

Possuo uma deficiência auditiva nas duas orelhas. Eu escuto devido aos implantes cocleares, mas não chega no nível de uma pessoa ouvinte.

Com isso, eu prefiro estudar lendo, mas tem muito conteúdo sendo em forma de vídeos (sem legenda) ou podcast e pouco em forma de texto.

Caso existe uma ferramenta ou aplicativo para isso, escreve para mim por favor. Se não existe, quero construir uma ferramenta ou aplicativo, mas não faço ideia como fazer isso.

Caso você tenha curiosidade da minha deficiência, pode perguntar para mim a vontade.

No próprio windows tem uma ferramenta de legendas em tempo real com o que esta sendo "ouvido" no computador. Recomendo uma breve pesquisa sobre.

Posso sugerir o Whisper, é um modelo de reconhecimento de áudio e transcrição open source criado pela OpenAI (responsável pelo ChatGPT), a ferramenta de linha de comando até gera um SRT já sincronizado que pode ser usado. Só tem um detalhe: Acredito que você teria que extrair o áudio dos vídeos, não sei se ele aceita vídeo como input, outra coisa é que o tempo para fazer a transcrição demora um pouco se você não usar uma placa de vídeo.

Recomendo o modelo medium, nos meus testes ele se mostrou o mais assertivo no reconhecimento.

Vantagens:

  • Gratuito
  • Permite usar a ferramenta pronta ou importar em código e customizar

Desvantagens:

  • Quanto maior o modelo, mais memório de vídeo (caso GPU) ou RAM para conseguir rodar

Espero que seja útil!

Eu precisei fazer a transcrição para texto de alguns vídeos e utilizei, com sucesso, as instruções para Python desse site (tudo bem explicado, mas em inglês): https://pub.towardsai.net/extract-the-text-from-long-videos-with-python-81d30d655cfd

Oi Luisa, caso não encontre uma ferramenta para utilizar e queira realmente criar a sua própria ferramenta o nome da tecnologia que você precisa comumente é chamada de "Speech to Text" e está presente na maioria dos serviços cloud.

Por exemplo, o da AWS seria o Amazon Transcribe: https://aws.amazon.com/pt/transcribe/ | https://aws.amazon.com/what-is/speech-to-text/

Opa, pelo que entendi (e me desculpe se falar besteira), ela não tem deficiência na **audição**, então seria o speech to text, que transcreveria a fala em texto. Infelizmente não conheço nenhuma ferramenta que faça isso, porém acredito que existam sim algumas opções. Mas pra implementar uma própria, eu já testei o serviço da [azure](https://azure.microsoft.com/en-us/products/cognitive-services/speech-to-text/), e funcionou bem.
Eita, verdade, acabei errando o termo. Porém o Amazon Transcribe faz o trabalho também.

Pesquisa sobre a API google speech, tenta junta-la ao ffmpeg, talvez ajude.

Curto o wit.ai usei no meu tcc. Problema é ter limite de tamanho de audio, mas se voce quebrar o audio em menores baseado em algum parametro é tranquilo (o audiotok faz isso).