o langchain é um framework que você instala como qualquer outro pacote NPM. Esse framework tem várias abstrações de embeddings, vetores, chunks entre outras coisas de certa forma "padronizadas" em modelos de LLM.

E o bacana é que nas abstrações dele tem coisas especificas sobre como você lida com providers de inteligência artificial como a OpenAI por exemplo.

Em relação ao modelo eu utilizei em maquina local o ollama com llama3.2-7b de no máximo 7B de parâmetros (gpu gforce 1050ti 4gb, 16gb ram e um I5 da quinta geração) já em produção inicialmente tentei utilizar VPS com GPUs, mas a mais barata que encontrei para rodar um modelo de no minimo 30B tinha o custo aproximado de US$100/mês.

E digo modelos de no mínimo 30B porque em testes, modelos menores começavam a "alucinar" e saiam totalmente do contexto.

Então depois de cavucar um pouco encontrei a GROQ que é um SaaS de modelos de IA de diversos tamanhos e tipos que você consome via API que tem um free tier bem interessante

se tiver alguma outra dúvida, manda ai :-)

Bom saber, os preços da API estão razoavelmente baixos mesmo. Valeu. 👍