Pesquisadores executam LLM de bilhões de parâmetros com apenas 13 watts de energia, suficientes para acender uma lâmpada
Ao evitar o uso de multiplicação de matrizes, o modelo foi capaz de consumir 10 vezes menos memória, operar 25% mais rápido e atingir o mesmo desempenho que o Llama da Meta. As informações são do site UC Santa Cruz.
Para quem tiver interesse aqui está o github com modelos e implementações:
Que massa, `hellitonsm`!
Obrigado por compartilhar isso com a gente 💪