Oi Luisa, caso não encontre uma ferramenta para utilizar e queira realmente criar a sua própria ferramenta o nome da tecnologia que você precisa comumente é chamada de "Speech to Text" e está presente na maioria dos serviços cloud.
Por exemplo, o da AWS seria o Amazon Transcribe: https://aws.amazon.com/pt/transcribe/ | https://aws.amazon.com/what-is/speech-to-text/
Opa, pelo que entendi (e me desculpe se falar besteira), ela não tem deficiência na audição, então seria o speech to text, que transcreveria a fala em texto. Infelizmente não conheço nenhuma ferramenta que faça isso, porém acredito que existam sim algumas opções. Mas pra implementar uma própria, eu já testei o serviço da azure, e funcionou bem.
Eita, verdade, acabei errando o termo. Porém o Amazon Transcribe faz o trabalho também.