Quais as tecnologias mais usadas em ciência de dados?
Sou formado em física e estou concluíndo o mestrado também em física. Considerando que já domino bem matemática e estatística, quais as ferramentas que preciso aprender para fazer a migração de carreira?
Oi Felipe, tem um curso muito bom de Havard muito completo, é o CS109a https://harvard-iacs.github.io/2019-CS109A/, focado em machine learning.
Eu também sou da área de exatas (matemática), esse curso foi meu primeiro contato com data science, e me ajudou muuuuito! Eles fazem um ótimo balanço entre teoria e prática, revisitando os fundamentos matemáticos dos modelos até laboratórios práticos em Python com aquisição de dados, visualização e treino de machine learning.
Na aba "Schedule" você vai ver o cronograma das aulas na ordem proposta. Cada aula vai ter um slide e um lab associado. Os slides vão te dar uma visão geral do tópico, e os labs a parte prática. Como você é físico, sugiro dar uma olhada tbm nas aulas que eles chamam de "Advanced Sections" lá tem um material muito rico com notas de aulas que entram mais profundamente nos conceitos estatísticos do que os slides. É muito bom e acho que dado o seu perfil, você vai gostar dessa pegada.
Mas respondendo sua pergunta, acho que Python e R são as ferramentas analíticas mais usada no mercado em áreas de dados (mais Python do que R) são linguagems que vão te permitir manipular dados, testar modelos estatísticos e reportar resultados, sem muita dificuldade. Depois eu diria que SQL é bem importante também no mercado, pois é a linguagem que você vai se comunicar com bases de dados e trazer as informações que queira pro ambiente onde está trabalhando. Acho que seu backgroud em física/matemática/estatística te dá um diferencial competitivo enorme, porque ciência de dados ficou muito na moda nos últimos anos e tem muita gente entrando nesse mercado aprendendo muito superficialmente as coisas e sem saber dos fundamentos estatísticos por trás.
Eu gosto muito da imagem abaixo:
O grande tripé pra ser um bom profissional de data science: Matemática, programação e domínio do negócio. O primeiro acho o mais difícil, mas que bom que você já tem, programação não sei seu background, mas correndo atrás você consegue aprender, o curso que te passei vai te ajudar, se não sabe nada dessa parte; o terceiro, muitíssimo importante e muitas vezes ignorado, é o domínio de negócio.
Praticamente todas as grandes/médias empresas hoje tem uma área dedicada de dados, se vc quer ser cientista de dados da Magazine Luiza por exemplo, é bom que entenda muito bem do negócio de varejo, vendas, produtos, logística etc. Se quer trabalhar como cientista de dados do Itaú, entenda muito bem de finanças, investimentos, risco de crédito, mercado de capitais etc. É importante entender o que a empresa onde você está trabalhando/pretende trabalhar faz, e como o seu trabalho em dados vai ajudar ela a resolver algum problema, não basta chegar sendo o Ás da matemática e programação se não tiver a mínima vontade de entender como o negócio funciona. Não precisa entrar no mercado sabendo tudo sobre o business da sua empresa, mas é importante que uma vez dentro, vc busque desenvolver esse terceiro lado do tripé.
Depois dá um lida nesse artigo, https://towardsdatascience.com/in-defense-of-zillows-besieged-data-scientists-e4c4f1cece3c, ele fala sobre o fracasso da startup imobiliária Zillow ao apostar que machine learning e modelos matemáticos são bolas de cristais, ignorando os fundamentos do negócio imobiliário, é um ótimo exemplo de que data science não resolve todos os problemas do mundo, e que métodos estatísticos precisam ser utilizados com muito cuidado.
Fazendo meu jabá aqui pra quem tiver lendo hahaha, no meu github tem alguns projetinhos legais de machine learning que fiz durante a graduação :) https://github.com/reneroliveira
Felipe, tudo bem?
Eu não me aprofundei na área, mas o que eu aprendi foi com essa playlist no meu canal: https://www.youtube.com/watch?v=ccZ2pyr3YDw&list=PLMdYygf53DP7YZiFUtGTWJJlvynRyrna-
Ela passa por várias dentro desse tema, incluindo especificamente ciência de dados: https://www.youtube.com/watch?v=F608hzn_ygo&list=PLMdYygf53DP7YZiFUtGTWJJlvynRyrna-&index=3