Muito legal!! Parabéns Fiz algo parecido onde eu pegava um texto e gerava o áudio usando o site speechify (acho a fala mais natural), gerava imagens usando a api do Dall-e e juntava as imagens com legenda num vídeo em mp4.

Muito obrigado pelo teu comentário mano! Tenho muita vontade de melhorar o TTS, ainda não achei nada gratuito e melhor que essa lib que usei (gtts) mas vou estudar se é possível automatizar através do site speechify de alguma forma. Sobre as imagens geradas por IA via API, tá em primeiro lugar no meu roadmap! :D

Opa disponha. No caso eu precisei utilizar selenium pra poder interagir com o site. Não sei se seria interessante pra você, mas se quiser eu tento resgatar o código.
Seria muito massa mano! sei que dá pra usar selenium com node também então seria muito útil ver a forma que tu implementou!
Fiz um notebook no colab com o código que eu criei. Veja se consegue rodar e me dá um toque se ficar com alguma dúvida https://colab.research.google.com/drive/1Xm5_MhIFXd0D__fl4_d6lrqYuoVxw7yx?usp=sharing Roda ele completo e nos últimos blocos tem as variáveis pra você mudar o texto e a voz.