Opa, tem um monte de api freemium de speech to text no rapidapi:

https://rapidapi.com/search/audio%20to%20text

Algumas são bem baratas inclusive. E se quiseres, pode fazer como pensaste, de se inscrever em várias e ir alternando entre elas, isso só vai complicar um pouquinho a tua lógica, mas deve funcionar...

Só presta atenção para se inscrever no plano certo, e não estourar os limites para não ser cobrado a mais...