Muito bom o exemplo da cobertura.
Devemos sempre lembrar da pirâmide de testes (unitário, integração e e2e), sendo da esquerda pra direita o mais importante e inversamente o que gera mais ruído.
Já tive experiências de sistemas que utilizavam somente e2e, e a qualidade do sistema era horrível. Os testes falhavam o tempo todo devido a fatores externos, dependiam do estado anterior de outros testes e sempre geravam enorme ruído. As vezes um grande número deles falhava e como um pequeno bug afetava várias partes do sistema, sem testes unitários/integração era praticamente ficar caçando uma agulha num palheiro por falta de visibilidade. Ou seja, os e2e sozinhos não ajudavam muito.
Já trabalhei com um sistema que inicialmente tinha testes e2e que rodavam diariamente, mas chegou uma hora que para rodar tudo demorava mais de 13 horas, qur dizer, nada prático ou viável. Nisso um colega trouxe esse conhecimento da pirâmide de testes, separamos o que deveria ser UT, o que poderia ser de integração e diminuímos muito os e2e. O resultado disso foi a diminuição para cerca de 5-6 horas para ter uma cobertura e segurança bem melhores.
Mas como dito no post, se não sabemos o que deve ser efetivamente testado, tudo isso é em vão...