Olá! É maravilhoso ver você direcionando seus estudos para a análise de dados. Essa decisão é empolgante e oferece inúmeras oportunidades de crescimento. Antes de responder à sua pergunta, vou abordar alguns pontos que acredito serem cruciais para o contexto:
Propósito do GitHub
A documentação do GitHub diz que o seu propósito é "criar, enviar e manter um software". No entanto, ao longo do tempo, essa plataforma evoluiu para algo ainda mais profundo. Atualmente, o GitHub se assemelha a uma vitrine virtual, onde indivíduos apresentam seus projetos e compartilham suas realizações, como uma espécie de portfólio, carteira ou currículo. Determinados profissionais precisam de um público: pintores expõem suas obras em galerias; cineastas conseguem armazenar seus filmes nos serviços de transmissão como Netlix; escritores têm livrarias e bibliotecas; músicos compartilham suas músicas no SoundCloud, iTunes e no YouTube. Os programadores encontraram no GitHub um espaço para exibir suas criações. A esse respeito, sugiro a leitura do artigo "Aprenda a usar o Github como seu portfólio", que explora essa perspectiva de forma abrangente.
Entendendo o Git e Suas Limitações
Porém, não se pode olvidar que o propósito fundamental do Git é gerenciar as mudanças no código-fonte. O sítio HowToGeek diz que o Git é um sistema de controle de versão de código aberto criado por Linus Torvalds, o criador do kernel do Linux, semelhante a outros sistemas de controle de versão, tais como o Subversion, CVS e Mercurial. O Git é voltado para rastrear e gerenciar o código-fonte de aplicações e permite que se mantenha um histórico detalhado de ramificações e mesclagens nos arquivos de texto correspondentes, garantindo que seja possível acompanhar as modificações e reverter alterações de maneira eficaz. Esse sistema garante que você tenha um histórico detalhado de mudanças e a capacidade de reverter ações, facilitando a colaboração e a gestão de projetos complexos. No entanto, é importante mencionar que o Git possui limitações quando se trata de lidar com arquivos binários, como os utilizados no Excel. Como resultado dessa característica, o GitHub, construído com base no Git, apresenta as mesmas restrições quando se trata de armazenar volumes consideráveis de dados, abordadas de forma abrangente no artigo sobre Gerenciamento de Arquivos Grandes. Embora seja possível utilizar o Git LFS, é importante considerar que essa solução não é completa e pode adicionar complexidade ao fluxo de trabalho.
Explorando o Data Version Control (DVC)
Uma alternativa que pode ser mais adequada para gerenciar seus trabalhos em análise de dados talvez seja o Data Version Control (DVC). O DVC foi criado especificamente para controlar conjuntos de dados e facilita o rastreamento de alterações em variáveis ou observações. Esse recurso é de suma importância na análise de dados, que podem variar com diferentes granularidades (segundo, hora, dia, mês, ano etc). O DVC oferece a capacidade de manter um histórico detalhado de mudanças observando a granularidade escolhida, tornando possível rastrear alterações e reverter ações. Isso simplifica a coleta de dados de muitas fontes a intervalos periódicos. O DVC é igualmente útil quando se trabalha com aprendizado de máquina, pois permite rastrear diferentes versões de modelos treinados em diferentes conjuntos de dados, evitando a confusão que pode surgir com a falta de controle a respeito de qual mudança em qual variável apresentou resultados mais satisfatórios no treinamento de um modelo.
Conclusão
Ao considerar a exibição de seus projetos e habilidades, o GitHub pode ser uma vitrine valiosa, mas também é importante estar ciente de suas limitações ao lidar com manipulação de dados e arquivos binários. Explorar paralelamente ferramentas como o DVC pode proporcionar um controle de versão mais robusto e eficiente, especialmente ao lidar com conjuntos de dados, além de demonstrar sua proficiência no assunto. A combinação do GitHub para apresentação e do DVC para controle de versão pode ser uma abordagem poderosa para destacar suas realizações na análise de dados.
Desejo a você muito sucesso nessa nova fase de sua carreira e estou ansioso para ver suas contribuições na comunidade em breve! Qualquer coisa, estou à disposição para aprofundarmos o tema.
Entendi. Muito obrigado!