Opa, pelo que entendi (e me desculpe se falar besteira), ela não tem deficiência na audição, então seria o speech to text, que transcreveria a fala em texto. Infelizmente não conheço nenhuma ferramenta que faça isso, porém acredito que existam sim algumas opções. Mas pra implementar uma própria, eu já testei o serviço da azure, e funcionou bem.
Eita, verdade, acabei errando o termo. Porém o Amazon Transcribe faz o trabalho também.