Cara, muito interessante de verdade! Se você não se importar, consegue dar maiores informações de como vocês implementaram essa solução? Seria muito bacana e agregaria valor a muita gente que está construindo soluções parecidas de cloud.

Trabalho com uma rede sincronizada, onde cada cluster consegue se comunicar somente com o final e não entre si.

Ou seja, na prática, cada cluster tem um dedicado bare metal com um servidor proxy e o sistema interno rodando e com isso, temos uma api de cada cluster, que só pode ser acessada por x ASN.

Na prática, o usuário final se comunica com uma api principal que internamente se comunica com os clusters. Essa lógica me consegue propor uma infra completamente escalável, a níveis inimagináveis, onde a implementação de um cluster novo, para mais de 1000 usuários não demora nem 30 minutos.

Claro que isso tudo só é possível e só foi possível depois de um puta estudo e dedicação acerca de otimização, porque não adianta nada ter no papel uma infra montada e na prática ser ineficiênte e jogar dinheiro fora com recursos atoas.

Por questões de segurança, não posso entrar muito em detalhe como funciona realmente tudo, mas acho que isso seria a ideia geral mesmo.