Simplificando: use o anythingLLM para comecar.
Instale em um docker, configure e use a API dele de dentro da tua aplicacao para ser um wrapper para o LLM que voce precisa.
A vantagem que o anythingLLM ja vem com tudo "pronto" - voce apenas configura o LLM default desejado (mas pode ter varios).
Ai voce testa o que importa, ou seja, a aplicacao em si.
Quando voce fizer tudo funcionar, se for o caso, ai usa o python/langchain/etc para acessar os LLMs.
Na pratica ? Nao tenho mais acessado mais direto via python, uso o anythingLLM para tudo.
Grosso modo, o anythingLLM eh um openroute.ai local e gratuito.
Então o anythingLLM seria tipo o ollama certo? É o que estou usando atualmente para testar os modelos.
Porém por conta da limitação que te falei o resultado é bem paia, mas vou testar com as dicas que você me deu, muito obrigado por seu tempo!