Geração Aumentada de Recuperação (RAG) e Busca Semântica para GPTs

Aprenda sobre o RAG e como ele é útil para construtores de GPT

Geração Aumentada de Recuperação (RAG) e Busca Semântica para GPTs
Foto Reprodução Pixabay

O que é Retrieval Augmented Generation (RAG) e por que ela é valiosa para desenvolvedores de GPT?

A Geração Aumentada de Recuperação (RAG) é uma técnica que aprimora as respostas de um modelo injetando contexto externo em seu prompt em tempo de execução. Em vez de depender apenas do conhecimento pré-treinado do modelo, a RAG recupera informações relevantes de fontes de dados conectadas e as utiliza para gerar uma resposta mais precisa e sensível ao contexto.

Em GPTs, o RAG é executado automaticamente quando a recuperação de conhecimento está habilitada e os arquivos foram carregados. O modelo recupera dinamicamente informações relevantes desses arquivos para complementar o prompt do usuário.


Fluxo de trabalho básico do RAG

Por que o RAG é valioso?

O RAG é especialmente útil quando seu GPT precisa responder perguntas sobre conteúdo que não faz parte de seus dados de treinamento — como documentação específica da empresa, processos internos ou eventos recentes.

Exemplo:

Imagine que você está criando uma GPT para ajudar sua equipe de suporte a responder a perguntas sobre o produto. O modelo base da GPT possui amplo conhecimento geral, mas não conhece os registros de atualização mais recentes do seu produto nem o conteúdo da central de ajuda.

Com o RAG, seu GPT pode recuperar e usar tickets de suporte interno relevantes ou perguntas frequentes de arquivos enviados e responder usando esse conhecimento personalizado — sem que você precise codificar cada resposta.


O que é Pesquisa Semântica?

A busca semântica é o método que os GPTs usam para encontrar informações relevantes nos arquivos enviados. Ao contrário da busca por palavras-chave, que busca correspondências exatas de palavras, a busca semântica encontra conteúdo conceitualmente semelhante — mesmo que os termos exatos não correspondam.

Isso é feito usando um banco de dados vetorial , onde o texto é armazenado como embeddings (representações numéricas de significado). Quando um usuário faz uma pergunta, o GPT converte essa pergunta em um vetor e a compara com os vetores armazenados, recuperando os trechos de texto mais relevantes.

Fonte de dados

Método de pesquisa

Sistemas de gerenciamento de documentos (Google Drive, Sharepoint, etc.)

Pesquisa por palavra-chave, sequência de consulta personalizada

Bancos de dados relacionais (Postgres, MySQL, etc.)

Consulta SQL

Bancos de dados vetoriais

Consulta de pesquisa semântica


Como funciona a recuperação de conhecimento do GPT?

Quando você carrega arquivos para um GPT personalizado e habilita a recuperação de conhecimento , o seguinte acontece nos bastidores:

  1. Fragmentação : os arquivos são automaticamente divididos em seções menores (por exemplo, parágrafos ou blocos lógicos).

  2. Incorporação : cada pedaço é convertido em uma incorporação usando os modelos de incorporação do OpenAI.

  3. Armazenamento : os embeddings são armazenados no armazenamento interno de vetores do OpenAI.

  4. Consulta : quando um usuário faz uma pergunta, o GPT cria um vetor para o prompt e recupera pedaços semanticamente semelhantes.

  5. Geração de resposta : os blocos recuperados são incluídos como contexto no prompt do GPT para gerar uma resposta mais informada.

Você não precisa gerenciar um banco de dados de vetores manualmente — tudo isso acontece perfeitamente no construtor GPT.


Exemplo de caso de uso

Se você estiver criando um GPT de suporte ao cliente, você pode:

  • Carregue seus PDFs de base de conhecimento ou conteúdo wiki interno

  • Habilitar a recuperação do conhecimento

  • Deixe que o GPT pesquise semanticamente esses documentos e retorne respostas úteis e precisas com base neles

O GPT agora pode responder a perguntas dos usuários como:

“Como posso redefinir minha senha?”
→ Usando o contexto da sua própria documentação — mesmo que essa pergunta exata não tenha sido treinada no modelo base.


Resumo

  • O RAG melhora a qualidade da resposta incorporando conhecimento em tempo real dos seus arquivos.

  • A pesquisa semântica permite que os GPTs recuperem conteúdo conceitualmente relevante, não apenas palavras-chave.

  • GPTs com recuperação de conhecimento usam esses métodos automaticamente — nenhuma configuração extra é necessária além do upload de seus arquivos.

Fonte: OpenAI