Para quem precisa consumir um texto, mas prefere áudio, acho que a qualidade está satisfatória mesmo. Fica melhor do que no Edge, porque de vez em quando ele lê palavras em português como se fosse inglês (exemplo, face), ou o contrário, e às vezes se atrapalha com uma pontuação numa abreviação, achando que é ponto final.

Para realmente passar a impressão de que é o Filipe, ainda falta aperfeiçoar mais. O Lucas Montano lançou um vídeo hoje onde mostrou dois áudios gerados pela Eleven Labs. Acredito que ele tenha feito o treinamento mais completo, pois ficou realmente muito parecido com ele falando. Pode ver pela entonação e até onomatopéias ("não é mesmo, ãhn?").

Tudo depende do seu objetivo. Eu acho esse um projeto bem interessante. Já testei o Speechify, mas achei o preço salgado para o meu nível de consumo. Não sei o quão lucrativo é um projeto assim, na prática.

eu testei a clonagem profissional com minha voz e ficou muito bom, pra mim superior que o instant voice. O problema é que eu estou enviesado por saber dessa diferença, quando peço pras pessoas ouvirem os dois tipos de audio, elas nao conseguem dizer qual o melhor, tanto que voce me perguntou qual dos dois eu tinha usado. Tenho pensado que o melhor vai ser seguir com algo satisfatorio e ir avançando junto com os modelos. Em algum monento eles vao ficar muito muito proximos da realidade.