Como rodar modelos de linguagem locais com interface web e API no Ubuntu Server 24.04
Se você quer hospedar modelos de linguagem (LLMs) no seu próprio servidor, com interface web para testes e uma API para integração, essa é a solução completa
Se você busca autonomia, performance e controle total sobre os seus modelos de linguagem, chegou a hora de conhecer o Text Generation WebUI, uma das ferramentas mais completas e versáteis para rodar LLMs no seu próprio ambiente.
Com uma interface amigável e suporte a uma ampla variedade de modelos (como LLaMA, Mistral, GPTQ, GGUF, entre outros), o Text Generation WebUI é a escolha ideal para desenvolvedores que querem ir além da nuvem, integrando inteligência artificial diretamente aos seus sistemas, aplicações e fluxos de trabalho, com mais privacidade, personalização e velocidade.
Vamos te dar o passo a passo. Fique atento!
🔧 Requisitos mínimos
| Recurso | Recomendado |
|---|---|
| CPU | x86_64 com suporte a AVX |
| RAM | 16 GB ou mais |
| GPU | Opcional, NVIDIA com CUDA (para acelerar) |
| Disco | SSD com 20 GB livres ou mais |
| SO | Ubuntu Server 24.04 LTS |
Passo 1: Instale os pacotes básicos
Passo 2: Clone o repositório oficial
Passo 3: Crie e ative o ambiente virtual Python
Passo 4: Instale as dependências do projeto
Para rodar via CPU:
Para rodar com GPU NVIDIA (CUDA 11.8):
Passo 5: Baixe um modelo de linguagem
Como exemplo, vamos usar o Mistral 7B Instruct, no formato GGUF:
Você pode baixar outros modelos no HuggingFace.
Passo 6: Inicie o servidor com interface web + API
-
A interface web estará disponível em:
http://:7860 -
A API REST estará no mesmo endereço, permitindo chamadas POST para integração com seus sistemas.
Rodar em segundo plano com tmux
Para deixar o servidor rodando mesmo após encerrar a sessão SSH:
Para reconectar:
Conclusão
Com esse setup, você terá um servidor local rodando modelos LLM com:
-
Interface web amigável para testes
-
API REST para conectar com seus sistemas PHP, Node, Python, etc.
-
Total controle sobre os dados, sem depender de serviços externos
Se quiser automatizar esse processo com um script .sh, posso criar um pronto para uso.
Fonte: OpenAI ChatGPT

