Pelo que entendi, as falhas de energia foram em um único datacenter, o maior entre os 3 que integram o cluster de alta disponibilidade.

Por ser o maior, era nele que estavam boa parte dos serviços que ainda não estavam no cluster de alta disponibilidade. Em outras palavras, o problema ocorreu em um datacenter do cluster, mas o impacto maior foi pelos serviços que estavam centralizados nesse datacenter, fora do cluster.

Apesar do texto dar bastante ênfase nos problemas elétricos, e na falta de aviso antecipado sobre o incidente pela administradora do Datacenter, entendo que isso é um problema para o qual a Cloudflare poderia ter se preparado, mas provavelmente optaram por assumir o risco.

Não posso acreditar que não conheciam os riscos ao:

  1. manter serviços importantes fora do cluster,
  2. depender de atuação manual para ativar as contingências durante o incidente,
  3. aparentemente não ter contingência para alguns serviços "novos" e
  4. depender também de atuação manual para restabelecer os equipamentos principais quando o problema elétrico foi solucionado.

Respeitadas as proporções, é a mesma coisa para os clientes da Cloudflare que foram impactados, pois também poderiam ter contingências, mas para a maioria não vale a pena devido ao alto custo da resiliência e pela "baixa probabilidade" de ocorrer uma falha tão catastrófica em um serviço tão importante.