eidoc, quando começou essa tendência de rodar o modelo localmente eu também tentei só para ver o custo CPU dessa ferramenta. Tempos depois, o Fábio Akita publicou um vídeo em que ele também tentou "rodar" esses modelos localmente com sucesso (o cara tem uma infra muito melhor do que a minha!):
https://www.youtube.com/watch?v=O68y0yRZL1Y: Entendendo Como ChatGPT Funciona - Rodando sua Própria IA
Meses depois o Akita fez uma live fornecendo mais algumas informações/opiniões a respeito do assunto. Acho que foi quando começou aquele medo se as IAs iriam nos substituir.
https://www.youtube.com/watch?v=UDrDg6uUOVs: Entendendo o Básico de IA e Redes Neurais - IAs vão te substituir??
Nesta parte aqui do vídeo ele sugere o LMStudio, pela facilidade de uso, algo do tipo all batteries included. Fica só a seu cargo o download de um modelo mais apropriado para seu uso. Se não tiver tempo de ver o vídeo todo, veja somente o trecho a partir deste ponto que deixei no link.
Na época em que experimentei um modelo em infraestrutura bem mais inferior que a sua, o chat.cpp
com ggml.c
(e um modelo pequeno quantizado) funcionou localmente e razoavelmente bem. Infelizmente não achei mais o repositório de onde baixei o fonte, mas hoje em dia há vários forks de forks do repositório principal.
https://github.com/ggerganov/llama.cpp (repositorio principal)
- https://github.com/antimatter15/alpaca.cpp (fork de ggerganov)
-
- https://github.com/rupeshs/alpaca.cpp (fork de antimatter15)
-
-
- https://github.com/hjude/alpaca.cpp (fork de rupeshs)
-
Devido à onda de ataques por supply chain, deixo algumas dicas, sugestões antes que prossiga:
- leia as instruções e recomendações no
README.md
no repositório que escolher. Verifique se é o que precisa; - baixe, por conta e risco, um desses forks de forks, pois parecem mais enxutos que o repositório principal. Compilam facilmente com
make
; - avalie se o código fonte é seguro, makefile etc. que irá compilar (note que é apenas C/C++, sem dependências de Python), ou seja, confira se a aplicação não vai se apoderar de seus dados, vazá-los etc.;
- verificando que não há problemas, compile o código e rode o
chat.exe
(ouchat
se estiver usando Linux) juntamente com o modelo que escolheu; - sempre avalie a segurança dos códigos, arquivos usados na compilação e derivados para evitar futuros ataques por supply chain. Nem sempre o que é opensource estará livre de supresas.
Note que os repositórios não disponiblizam modelos, mas instruções de onde baixar um deles. Escolha aquele que é mais apropriado para a quantidade de mémória de sua infraestrutura. O tamanho varia desde uns 4GB (quantizado) a bem mais que isso. Se estiver usando cache em disco, tente desatívá-lo para manter o modelo só em memória RAM. Isso pode limitar o tamanho do modelo que vai usar para uns 8GB e, esgotando a memória RAM, o sistema trava, um efeito colateral desta medida. Logo, procure o melhor compromisso começando com modelos pequenos, digamos 4GB, para ver se vale a pena. Observe quanto consomem de memória para ter uma ideia da proporção que não é 1:1 mas algo como 1:1,5. Não usei o termo 4B/8B/etc. pois 4GB/8GB é o que fica mais fácil para eu associar com o tamanho de memória física. 4B/8B/etc. geralmente se referem a número de parâmetros e não necessariamente está relacionado 1:1 com o tamanho de arquivo. Outro detalhe, dependendo do sistema de arquivos que utilizar (algo raro, como FAT32), pode ter problemas para armazenar arquivos maiores que 4GB.
"Rodando" um modelo quantizado com cerca de 4GB em um notebook i5 você vai notar que consome muito processamento. O notebook pode aquecer, precisando que a ventilação esteja desobstruída para não perder desempenho. Daí você verifica se vale a pena o custo benefício de "rodar" localmente sem GPU. Pode também testar em outro hardware dedicado, como PC. Você pode modular a compilação ativando chaves específicas para o tipo de arquitetura (instruções especiais da CPU como as SSE, AVX etc.). Notebooks, para eficiência e segurança, podem diminuir o desempenho para evitar superaquecimento, mas esta aplicação rodava sem maiores problemas. Em PC desktop era um pouco mais rápida.
É muito provável que você consiga rodar modelos especialistas em vez de um modelo genérico. Só não sei onde encontrá-lo para baixar, específico para sua área de atuação profissional.
Exemplo: Baixar os arquivos do repositório...
$ git clone https://github.com/antimatter15/alpaca.cpp.git
Cloning into 'alpaca.cpp'...
remote: Enumerating objects: 515, done.
remote: Counting objects: 100% (44/44), done.
remote: Compressing objects: 100% (3/3), done.
remote: Total 515 (delta 41), reused 41 (delta 41), pack-reused 471 (from 1)
Receiving objects: 100% (515/515), 1.32 MiB | 1.86 MiB/s, done.
Resolving deltas: 100% (281/281), done.
Remover arquivos desnecessários, só para ver o que é o mínimo necessário. Isso pode facilitar a inspeção completa dos arquivos, ver o que realmente fazem...
$ rm -rf screencast.gif .gitignore .git .github/
Isto é o que sobrou. É suficiente para invocar o utilitário make
que fará a compilação das aplicações chat
e quantize
...
$ l
total 468
476 8 -rw-rw-r-- 1 4126 2024-12-05 10:07:54 README.md
499 4 -rwxrwxr-x 1 309 2024-12-05 10:07:54 quantize.sh*
495 12 -rw-rw-r-- 1 11425 2024-12-05 10:07:54 quantize.cpp
474 8 -rw-rw-r-- 1 5528 2024-12-05 10:07:54 Makefile
464 4 -rw-rw-r-- 1 1072 2024-12-05 10:07:54 LICENSE
493 24 -rw-rw-r-- 1 22153 2024-12-05 10:07:54 ggml.h
485 324 -rw-rw-r-- 1 328260 2024-12-05 10:07:54 ggml.c
484 8 -rw-rw-r-- 1 5418 2024-12-05 10:07:54 convert-pth-to-ggml.py
462 8 -rw-rw-r-- 1 4377 2024-12-05 10:07:54 CMakeLists.txt
483 44 -rw-rw-r-- 1 41202 2024-12-05 10:07:54 chat.cpp
512 4 -rw-rw-r-- 1 3254 2024-12-05 10:07:54 utils.h
504 20 -rw-rw-r-- 1 19260 2024-12-05 10:07:54 utils.cpp
O utilitário make
vai invocar a compilação e gerar dois executáveis. Note que o executável chat
tem menos que 500 KB, faz uso de apenas algumas bibliotecas.
$ ldd chat
linux-vdso
libstdc++
libm.so
libgcc_s.so
libpthread.so
libc.so
ld-linux-x86-64
https://thesecmaster.com/blog/how-to-turn-your-raspberry-pi-into-an-ai-chatbot-server