Isso mesmo, tem de trabalhar na parte do treinamento mesmo.
Esobre os pesos não serem aleatórios é exatamente esta sensação de armadilha que fazem não serem explorados, já que algo "matemáticamente" criado pode converger a um ótimo local, mas eu não me refiro a isso e sim em saber gerar os valores aleatórios de forma em que a própria rede demore mais tempo para associa-los durante o crossover por exemplo.
E acho que nesta parte que deve ocorrer o maior consumo e não durante o treinamento, oque não ocorre na prática.
Obrigado pela atenção, apóio e por entender a ideia e conceito
Estamos juntos FabioSmuu!!
A gente tem que criar esse conteúdo de ML mesmo na comunidade brasileira!
Sobre a parte de convergir em menos tempo por não ter valores aleatórios, não acredito que seja assim porque o backpropagation geralmente utiliza algoritmos que punem valores mais discrepantes para toda a rede.
O dropout vai servir para corrigir ainda mais esses valores discrepantes e não ocorrer um possível overfit.