Wikipedia enfrenta desafios com crawlers de IA em seu site
A Wikimedia Foundation relatou um aumento de 50% no consumo de largura de banda para o download de conteúdos multimídia desde janeiro de 2024, atribuído ao crescimento da atividade de crawlers de IA.
Esses programas automatizados extraem imagens, vídeos, artigos e outros arquivos de licença aberta para treinar modelos de IA. O tráfego gerado por esses bots pode impactar o desempenho do site, especialmente durante eventos de grande interesse.
A Wikimedia explica que leitores humanos tendem a buscar tópicos específicos e populares, o que permite armazenar conteúdos em cache nos data centers mais próximos, reduzindo a carga sobre a infraestrutura. No entanto, os bots acessam páginas em grande volume, incluindo aquelas raramente visitadas, forçando a organização a recorrer com mais frequência ao data center principal, o que eleva os custos operacionais.
Atualmente, 65% do tráfego que mais consome recursos na plataforma provém de bots. Para evitar que a lentidão afete os usuários reais, a equipe da Wikimedia tem bloqueado crawlers regularmente.
A fundação busca estabelecer soluções sustentáveis para o acesso a seus conteúdos no próximo ano fiscal.
Eu tenho visto muitos casos como esse, e a tendência a longo prazo é destruirem a iniciativa live e open-source que não tem como bancar as despesas de hosting por conta dos crawlers.
Acho que a solução seria algo como "boi de piranha". O próprio site dispor de download do conteúdo em alguma área FTP configurada em hosting mais barato, ou um feed RSS zipado... Pra não ter que amargar uma conta de cartão de crédito dobrando a cada 4 meses.