ReTabNews

O projeto Smol LM provou uma coisa que muita gente ainda ignora: não é preciso a internet inteira pra treinar um modelo bom.

Com um conjunto enxuto e bem selecionado de dados, além de um trabalho humano minucioso na engenharia do modelo, o Smol LM conseguiu entregar resultados surpreendentes para seu tamanho. Nada de scraping massivo, nada de exageros, só foco em qualidade nos dados e decisões técnicas inteligentes.

Esse tipo de abordagem tem tudo a ver com o que estou construindo no ModerAÍ. O ModerAÍ é um sistema de moderação de conteúdo ofensivo, pensado tanto pra desenvolvedores quanto pra quem quer proteger sua comunidade online sem depender de soluções genéricas e caras. Assim como no Smol LM, o coração do ModerAÍ está nos dados certos e bem usados. A moderação acontece em três camadas complementares:

Um algoritmo baseado em Jaro Similarity, apoiado por um dataset construído com cuidado. Uma etapa de busca vetorial com similaridade de cosseno, que identifica xingamentos disfarçados ou variações criativas. E por fim, uma LLM brasileira, que entra em ação para entender frases complexas, com ironia ou contexto mais profundo.

E de onde vêm esses dados? Eu mesmo construo o dataset com palavras que ouço no mercado, no caminho da escola com meu filho, em vídeos no YouTube de pessoas de outros estados. É por isso também está sendo tão trabalhoso e demorado eu lançar um chat pras pessoas poderem testar.

Mas dia 15 sai uma versão em chat, pra vocês conversarem da forma mais desonesta possível kkkkkk No fim, tanto o Smol LM quanto o ModerAÍ mostram a mesma verdade:

dados bons, escolhidos com intenção, valem mais do que força bruta.

E quando há cuidado no processo, até soluções pequenas conseguem entregar resultado grande.

X: https://x.com/luizdidev YT: https://www.youtube.com/@mais.foco42 TN: https://www.tabnews.com.br/Andreldev IN: https://www.linkedin.com/in/andreluizss/ LP (temp): https://ddiidev.github.io/ModerAI-Web/ Blog(invid): O que o Smol LM um modelo diferenciado tem incomum com o ModerAÍ

#moderai #ai #novibecoding #cachorrocaramelo #programing #indiehack #buildinpublic #buildinpublicbr #construindoempublico #melhormoderador #melhorqueopenai #rag #finetunning #smollm