Todo o desenvolvimento será realizado no Databricks, onde as pessoas assinantes do canal terão acesso a este Datalake para realizar seus próprios experimentos.

É desse databricks que você está falando? O que ele oferece em comparação a distribuir os dados num arquivo .json, ou num notebook do kaggle, por exemplo?

Quem não for assinante do canal vai conseguir acompanhar sem acesso a essa datalake?

Pergunto pois vejo muitos termos (datalake, feature store, analytical base table) que eu não tenho familiaridade, mesmo já tendo trabalho com algumas aplicações de ML.

Parabéns pela iniciativa e parceria com o instituto asw.

Salve, mano!

É desse databricks que você está falando? O que ele oferece em comparação a distribuir os dados num arquivo .json, ou num notebook do kaggle, por exemplo?

É esse Databricks sim. Ele acaba sendo uma plataforma para construção de datalake. Fica beeeem legal trabalhar com ele, ainda mais de forma colaborativa. Vou compartilhar alguns materiais com você, como por exemplo, o armazenamento dos dados da TabNews no datalake da nossa comunidade: https://www.tabnews.com.br/teomewhy/tabnewslake-um-datalake-para-nossas-news

Além de usar dados do Dota2 em outro exemplo: https://github.com/TeoMeWhy/game-lake-house

Ambas iniciativas, acabam usando arquivos Json na primeira ingestão, mas depois fazemos um trabalho de tratamento de dados para ficar beeeem mais simples de se trabalhar com esses dados.

Quem não for assinante do canal vai conseguir acompanhar sem acesso a essa datalake?

Sim! Os vídeos ficaram gravados e a pessoa pode replicar os fundamentos, códigos e métodos em outro ambiente além do Databricks. Mas vale muito a pena ser assinante, é R$7,90/mês, além de não receber ADs durante a transmissão, você ganha acesso à todos os VODs da twitch e ao datalake. Só vantagem.

Conheçao do nosso trampo: https://github.com/TeoMeWhy