Eu acho o Claude melhor que o Gpt 4 pra gerar código, mas o preço da api deve ser tão alto quanto ou mais caro. O GPT 4 mini é o mais barato com folga, mas você teria que desenvolver seu sistema pensando nas limitações de contexto dele.

Acho que você teria que trabalhar com algo híbrido (automações + ai), como os colegas falaram, mas de toda forma tem um ponto que você precisa considerar e acho que ta falhando: o valor que o seu sistema entrega. Você pode estar assustado com o preço, mas imagina o custo da mesma tarefa executada por um dev humano.. será que não seria maior? Acho que é nessa linha que você tem que trabalhar

Não, não estou assustado. Meu ponto de vista é mais no sentido de que desenvolver por IA exclusivamente é tão caro como um dev humano e dificilmente sairá o mesmo resultado, pois meu cliente quer o sistema com UX perfeita, o posicionamento dos elementos é crucial em um software de verdade e a IA apenas joga as coisas na tela. Gerar prompts para gerar códigos é uma coisa, mas pensar em executar manutenção ou criar features específicas somente com IA é completamente ineficiente.

Quando falamos de back-end a IA consegue ajudar muito, quando fala de UX nunca tive boas experiências, UX é sempre algo muito criativo e a gosto do cliente... complexo pra humanos e IA tirar uma ideia da cabeça do cliente e converter em algo que agrade a todo mundo.
Eu acho que quanto menos contexto pior. Eu uso o Claude pago e me tornei muito produtivo com ele, mas é sempre dando muitas referências. Como eu tenho um certo padrão que envolve mvp e um kit visual, ele retorna baseado no que eu entrego de referência pra ele. Existem algumas iniciativas de geração de sistemas via prompt, mas são para coisas pequenas. Eu imagino que existem inúmeros meios de fazer isso, mas quem conhece a variedade de modelos (inclusive os open source) toma vantagem.
Tem diferença de usar a interface dessas ferramentas e usar a API, eu já fiz o teste com a OpenAI, mesmo prompt, formato de resposta totalmente diferente. Meu exemplo era, quero retornar somente o JSON dado uma análise. No ChatGPT ele explicava e só depois colocava o JSON. Via API ele retornava apenas o JSON, que é o que eu precisava. Ou seja, a versão "chat" dessas ferramentas são mais prolíxas embora mais fácies de manipular, acredito que nosso amigo esteja usando via API uma vez que está integrado na solução dele e não como um auxiliador, pq se ele está dizendo que está ficando tão caro quanto um programador... é pq não é o custo fixo mensal baratinho que vc paga pra usar uma versão premium do chat, e sim o custo de tokens veiculados nas APIs.
Conheço bem a api e uso em diversos projetos. Já ouvi falar que eles retornam uma resposta "pior" quando você pede a saída em json (acho que também é questão de ajuste). Mas de toda forma, fique atento pois o melhor jeito de trabalhar com resposta json é usando o "strict" que tem lá no manual.. senão ele viaja na resposta e altera o padrão.
e um sempre determino o formato e nunca me ocorreu essa alucinação na estrutura do json, já mudou formato de resposta poucas vezes mas vou me atentar.