Pesquisa sobre a API google speech, tenta junta-la ao ffmpeg, talvez ajude.