Dúvida sobre SQL em ciência de dados
Pessoal, minha dúvida é o seguinte. Quando se trabalha em uma empresa na área de dados, seja cientista de dados ou analista de dados, como é feito o acesso ao banco de dados? Existe um banco e você copia para a sua máquina? Faz as consultas no próprio banco? Temos uma chave de acesso? Como funciona?
Opa Felipe tudo bem? Sou cientista de dados na Vivo, então posso falar um pouco. No caso da Vivo usamos um DW, (não sei se vc está familiarizado com o conceito, mas é basicamente um servidor com uma porrada de bancos dentro) e cada acesso ao banco de dados é diferente. Por exemplo eu uso 3 banco de dados diferentes. Um deles eu acesso diretamente via SQL em na própria IDE do banco, outro eu acesso via Python, e o outro eu acesso via API pq é em nuvem. A forma de acesso depende muito da empresa, do projeto e dos arquitetos, não existe um padrão muito específico
Olá, @felipemoreira! Bom, quando se trabalha em uma empresa de dados primeiramente é interessante entender de onde essa empresa retira os dados que serão analisados, a partir daí é que serão definidos os meios de coleta.
Por exemplo, se a empresa coleta o dado do banco de dados dos seus clientes para gerar relatórios para eles, então será necessário ter o acesso ao banco de dados desse clientes, o como isso será feito dependerá do acordo realizado com o cliente, das tecnologias utilizadas dentro da empresa, podemos utilizar as credenciais de acesso deste banco para acessa-lo em nuvem através de uma conexão em uma ferramenta de administração de banco de dados, ou, no caso de uma banco local solictar o download do banco para que o analista possa suvir esse banco em sua máquina e analisar os dados.
Existem várias formas de ter acesso aos dados, mas, como disse, tudo vai depender do acordo entre empresa e cliente, objetivo da coleta desses dados, modelo de negócio da empresa, perfil do cliente, tecnologias, para só então definir o como será feito.
"Existe um banco e você copia para a sua máquina?" Sim, existe esta opção de baixar o banco e analisá-lo para extrair os dados relevantes para o negócio. Uma alternativa para treinar o SQL, é baixar bancos de dados abertos(públicos) e subir em um gerenciador de BD's. Como o https://dados.gov.br/
"Faz as consultas no próprio banco? Temos uma chave de acesso? Como funciona?" Para uma coenxão em nuvem, será necessário os dados de acesso, credenciais, um endereço, diagamos assim. Já para um banco que foi baixado, você só vai precisar do arquivo, seja o que você encontrar em bancos de dados abertos, ou que o cliente da sua empresa fornecer.
No caso do acesso em nuvem é interessante, pois a medida em que os dados vão sendo atualizados, você também consegue ter acesso a estes dados em tempo real. Já no caso do banco local, você só vai ter acesso dos dados inseridos no banco até o dia que você fez o download do arquivo. Então é interessante avaliar.
Em ambos os caso você fará as consultas e um gerenciador de banco de dados(eu uso o Dbevear pois cosigo acessar qualquer banco que utilize SQL), subindo o banco ou acessando através das credenciais, a partir dai você realizará as consultas que deseja.
Espero ter ajudado! :D
Como é feito o acesso ao banco de dados? Faz as consultas no próprio banco?
Normalmente, o analista tem acesso usando um SGBD para desenvolver as queries e a partir delas pode-se gerar relatórios de forma estruturada, ou seja, esse tipo de banco guarda dados estruturados, chamado de banco relacional que permite visualizar dados, salvar como csv, e entre outras maneiras de manipulação.
Existe um banco e você copia para a sua máquina? Temos uma chave de acesso? Como funciona?
Depende! Se for um banco convencional, pode sim gerar relatórios ou dados brutos e tratá-los num Power BI, por exemplo. Mas pode ser que você tenha acesso aos dados através de repositórios, estes repositórios são armazenados arquivos de dados datasets para serem consumidos pelos analistas, então, nos dois casos, pode-se copiar para sua máquina e fazer seus tratamentos. Existe uma questão de integridade de dados onde o usuário pode apenas ler, mas não alterar, nesses casos, o analista tem acesso somente de leitura num banco relacional ou num repositório, nos dois casos, pode-se apenas usar conexões através de uma credencial com suas devidas permissões para poder gerar seus relatórios, e etc. Se na empresa existe um DBA, ele lhe dará acesso e vai gerenciar suas permissões, mas se não existir um, vai ter outras pessoas que são responsáveis, seja a segurança da informação ou teu chefe. De qualquer maneira, o SQL é apenas a ponta do iceberg no mar da Ciência de Dados.