Boa tarde, @garaujo ! Uma pergunta hoje você trabalha com dados no setor privado ? se sim poderia me falar a stack de ferramentas que você está utilzando hoje. Estou fazendo um estágio onde eu mexo bastante com analise service e pentaho mais gostaria de focar em ter algumas ferramentas que o pessoal utiliza mais no mercado em geral.. Para Etl por exemplo faço geralmente no sql e no pentaho-Spoon, calculos ou o que tiver uma massa grande de dados geralmente utilzamos analise service pra analises e visualização estamos com solução no pentaho server e power bi.
Eu to respondendo pelo celular e não consigo ver bem a sua pergunta enquanto respondo, então se eu deixar de responder algo, me avise.
Sim, eu trabalho no setor privado. Vou dar um relato da minha vivência, ou seja, não tome o que eu vou falar como verdade absoluta, mas apenas como um relato do que eu vivi.
Eu trabalho no esquema de consultoria no momento então eu uso a stack que o cliente quer usar rs
Sobre ETL, conheço o pentaho, só usei ele em 2 freelas que eu fiz, mas nunca vi ele sendo usado em nenhuma empresa que eu trabalhei/prestei consultoria. Nesse assunto eu sempre vi as pessoas codando mesmo seja Python (pandas para quantidades pequenas e médias de dados e pyspark para quantidades grandes) ou SQL e executando isso em algum orquestrador como o Apache Airflow, Kubeflow (com o pipelines) ou o Pipeline do Databricks (não lembro o nome). Já vi até rodando o python direto na linha de comando sem nada por trás, dependendo da natureza do problema resolve bem e deixa mais simples. Tem ferramentas como o kedro, dagster e mage.ai que eu só testei em localhost até o momento, mas são bem legais.
Análises, exploração e criação de modelos usando Jupyter notebook/lab. Depois de criado, reescrever em formato coerente em arquivos .py pra serem executados automaticamente. (Sim! Saber codar com qualidade em arquivos .py e ter noção de engenharia de software são muito importantes, mesmo que muita gente se faça de maluco e ignore)
Apesar de nao ser algo que uso com frequência, eu gosto do Power BI, acho uma ótima ferramenta de visualização (não se deixe enganar pelas ferramentas que tem lá, não use Power BI para fazer ETL). Só fico meio chateado de não ter a versão desktop para Linux, mas é ótimo para visualizar resultados, ainda mais se você tem um modelo que funciona em Batch. Em contrapartida, tem o Streamlit que eu gosto e uso muito, porque tem uma construção mais rápida e permite que você faça requisições ao modelo a qualquer momento para novas predições (o que é bom para modelos que não estão rodando em Batch)
Tem também algumas outras ferramentas bem usadas para outros fins, mas tentei me ater ao que você perguntou.
Espero ter ajudado :)
P.s. se tiver mais alguma dúvida, é só falar