Como nosso colega comentou, coletar logs é uma parte importante. Essas ferramentas e outras como o https://logentries.com/ permitem que você crie "query" e identifique os erros ou alertas. Depois disso vc consegue criar alertas, gráficos e ficar com todas as info na mão.

Muito obrigado, Barroso!