[AJUDA] Algum cientista de dados pode me ajudar?
Sou iniciante na área e criei um canal de projetos, que pode ser acessado aqui
Você pode fazer alguma avaliação, conselho ou algo a acrescentar a mim?
Você pediu ajuda de "cientista de dados", entãããooo... qual é o aspecto que você está inseguro? Que tipo de conselho você está atras ??
Fala aí joelcarneiro
,
Tudo bem?
Achei bem legal o vídeo que você gravou, seguem algumas sugestões:
- Além de renomear (que você fez), é bom que no seu notebook contenha o significado de cada variável (um pouco mais detalhado que você fez no thal).
- Deu pra ver a importância disso quando no pandas_profiling não dava pra saber se 1 era homem ou mulher.
- É bom você explicar que a correlação que você menciona é a correlação linear, porém existem outras correlações aqui e aqui.
- Não sei se era o seu objetivo, mas seria legal explicar o porquê escolheu o Decision Tree / Random Forest aqui.
- Não vi se você mencionou a distribuição do seu target, pode e provavelmente é um dataset desbalanceado.
- Rapaz... sobre o Kfold, pelo que eu entenda ele divide o seu dataset em 100 partes, usa uma parte como teste e o restante como treino, prefiro usar o Shufflesplit que seria como um bootstrap que vai trazendo várias perspectivas aleatórias do dataset e como reage a elas, sem falar que você colocar qual % será de treino e de teste.