ReTabNews

Salve, mano!

É desse databricks que você está falando? O que ele oferece em comparação a distribuir os dados num arquivo .json, ou num notebook do kaggle, por exemplo?

É esse Databricks sim. Ele acaba sendo uma plataforma para construção de datalake. Fica beeeem legal trabalhar com ele, ainda mais de forma colaborativa. Vou compartilhar alguns materiais com você, como por exemplo, o armazenamento dos dados da TabNews no datalake da nossa comunidade: https://www.tabnews.com.br/teomewhy/tabnewslake-um-datalake-para-nossas-news

Além de usar dados do Dota2 em outro exemplo: https://github.com/TeoMeWhy/game-lake-house

Ambas iniciativas, acabam usando arquivos Json na primeira ingestão, mas depois fazemos um trabalho de tratamento de dados para ficar beeeem mais simples de se trabalhar com esses dados.

Quem não for assinante do canal vai conseguir acompanhar sem acesso a essa datalake?

Sim! Os vídeos ficaram gravados e a pessoa pode replicar os fundamentos, códigos e métodos em outro ambiente além do Databricks. Mas vale muito a pena ser assinante, é R$7,90/mês, além de não receber ADs durante a transmissão, você ganha acesso à todos os VODs da twitch e ao datalake. Só vantagem.

Conheçao do nosso trampo: https://github.com/TeoMeWhy