Obrigado por me citar.
Gostaria de sugerir uma outras mudanças simples na tela de demonstração: 1 - Adicionar o menu para retornar à tela inicial. 2 - No momento pelo que entendi, a demonstração realiza o chamado da api. Mas do processo de chamar até receber demora um tempo considerável, e como usuário eu só quero saber o resultado final para saber se está dentro do que preciso para meu projeto, depois vou verificando as outras questões.
Vejo dois caminhos para esse caso, um seria que a demonstração fosse realizada apenas do modelo que selecionar.
A segunda e mais interessante, na minha opnião, seria deixar preparado 3 a 5 resultados prontos e quando o usuário selecionar o que quer testar, exibir um dos 3 ou 5 resultados randomicamente.
Também tenho uma dúvida sobre o quanto podemos personalizar a resposta que recebemos da api, por exemplo a de texto para fala, há como definir o tom, sotaque e gênero do áudio gerado?
Uma última sugestão, no caso de modelo a ser adicionado, seria um modelo de interpretação de imagem, capaz de compreender características e objetos da imagem.
Fique a vontade para discordar de mim, minhas falas são baseadas apenas na minha opinião.
Ótimas opniões, sem duvida vamos considerar!
Sobre o ponto da demonstração, tenho a intenção de criar exemplos mais independentes e flexíveis mas acho que existe um certo charme em ser uma chamada real.
Sobre validar o resultado final, é um tema relativamente amplo, penso que podemos suprir esse gap criando conteúdos com casos de uso aplicados, mas até por não ser especialista em machine learning, corro o risco de me equivocar ou até limitar a capacidade dos modelos.
De qualquer forma, trazer aleatoriedade, e a possibilidade de interação nas demonstrações me parece ser algo que vai gerar muito valor, obrigado pelo conselho!
Também tenho uma dúvida sobre o quanto podemos personalizar a resposta que recebemos da api, por exemplo a de texto para fala, há como definir o tom, sotaque e gênero do áudio gerado?
Entrando no detalhe do text-to-speech, é curioso o tanto de modelos novos de todas as categorias de tarefas surgiram após o lançamento, o OuteTTS se tornou compartivel com o nosso sistema a alguns dias e apresenta uma qualidade incrível, porém não tem suporte a português.
O que usamos agora é mais limidado nesse sentido, mas ele pode evoluir e outros podem surgir rapidamente.
modelo de interpretação de imagem
Perfeito, 2 novos muito hypados foram lançados, paligemma2 da Google e o SmolVLM da HuggingFace e vai ser um prazer integra-los na plataforma.
Obrigado de novo pela contribuição! seria um prazer ouvir mais ideias no nosso discord ;)