Além do RAG: como a geração aumentada de cache reduz a latência e a complexidade para cargas de trabalho menores
Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
A geração de aumento de recuperação (RAG) tornou-se a maneira de fato de personalizar grandes modelos de linguagem (LLMs) para informações personalizadas. No entanto, o RAG acarreta custos técnicos iniciais e pode ser lento. Agora, graças aos avanços dos LLMs de longo contexto, as empresas podem evitar RAG inserindo todas as informações proprietárias na linha.
UM Um novo estudo A Universidade Nacional Chenji, em Taiwan, mostrou que usando LLMs de longo contexto e técnicas de cache, você pode construir aplicativos personalizados que superam os pipelines RAG. Chamada de geração aumentada de cache (CAG), essa abordagem pode ser uma alternativa simples e eficiente ao RAG em ambientes empresariais, onde o corpus de conhecimento pode caber na janela contextual do modelo.
Limitações do RAG
RAG é um excelente método para lidar com questões de domínio aberto e tarefas especializadas. Utiliza mecanismos de recuperação para coletar documentos relevantes à solicitação e adiciona contexto ao LLM para gerar respostas mais precisas.
No entanto, o RAG introduz várias limitações para aplicações LLM. Uma etapa de recuperação adicional introduz latência que degrada a experiência do usuário. O resultado depende da qualidade da seleção do documento e da etapa de classificação. Em muitos casos, as limitações dos modelos utilizados para recuperação exigem a quebra dos documentos em pedaços menores, o que é prejudicial ao processo de recuperação.
Em geral, o RAG acrescenta complexidade à aplicação LLM, exigindo o desenvolvimento, integração e manutenção de componentes adicionais. A sobrecarga adicional retarda o processo de desenvolvimento.
Recuperação aumentada em cache

Uma alternativa à criação de um pipeline RAG é inserir todo o corpus do documento no prompt e provar quais bits são relevantes para a solicitação. Essa abordagem elimina a complexidade do pipeline RAG e os problemas causados por erros de recuperação.
No entanto, existem três desafios principais no carregamento antecipado de todos os documentos em linha. Primeiro, estímulos mais longos desaceleram o modelo e aumentam os custos de inferência. Em segundo lugar, o comprimento da janela de contexto do LLM estabelece limites para o número de documentos que cabem na linha. Finalmente, adicionar informações irrelevantes ao prompt pode confundir o modelo e reduzir a qualidade de suas respostas. Portanto, abarrotar todos os seus documentos de uma vez em vez de selecionar os mais relevantes pode afetar o desempenho do modelo.
A abordagem CAG aproveita três tendências principais para superar estes desafios.
Primeiro, técnicas avançadas de cache tornam o processamento de modelos instantâneos mais rápido e barato. A premissa do CAG é que documentos de conhecimento sejam adicionados a cada linha enviada ao modelo. Portanto, os valores de atenção de seus tokens podem ser calculados antecipadamente, em vez de fazê-lo no recebimento de solicitações. Essa pré-computação reduz o tempo necessário para processar as solicitações do usuário.
Provedores líderes de LLM como OpenAI, Anthropic e Google oferecem recursos de cache instantâneo para partes repetitivas de sua linha. Com o Anthropic, você pode reduzir o custo e a latência em 85% nas áreas armazenadas em cache do seu prompt. Recursos de cache equivalentes foram desenvolvidos para plataformas de hospedagem LLM de código aberto.
Em segundo lugar, LLMs de contexto mais longo facilitam a inserção de mais documentação e conhecimento no ensino. Claude 3.5 Sonnet suporta 200.000 tokens, GPT-4o suporta 128.000 tokens e Gemini suporta 2 milhões de tokens. Isso possibilita adicionar vários documentos ou livros inteiros ao prompt.
Finalmente, os métodos de treinamento avançados permitem que os modelos realizem melhor recuperação, raciocínio e perguntas e respostas em sequências muito longas. Durante o ano passado, os pesquisadores desenvolveram várias definições de LLM para atribuições de longo prazo Babilônia, LongICLBenchE Governante. Esses benchmarks testam LLMs em problemas difíceis, como recuperação múltipla e perguntas e respostas de vários saltos. Ainda há espaço para melhorias nesta área, mas os laboratórios de IA continuam a fazer progressos.
À medida que as novas gerações de modelos continuam a expandir as suas janelas contextuais, podem processar coleções de conhecimento maiores. Além disso, podemos esperar que os modelos melhorem as suas capacidades de extrair e utilizar informações relevantes de contextos mais longos.
“Essas duas tendências ampliarão significativamente a aplicabilidade da nossa abordagem, permitindo-lhe lidar com aplicações mais complexas e diversas”, escrevem os pesquisadores. “Como resultado, nossa metodologia está bem posicionada como uma solução robusta e versátil para tarefas de uso intensivo de conhecimento, aproveitando os recursos emergentes da próxima geração de LLMs.”
RAG x CAG
Para comparar RAG e CAG, os pesquisadores realizaram testes em dois critérios de perguntas e respostas amplamente reconhecidos: EsquadrãoEle se concentra em perguntas e respostas sensíveis ao contexto a partir de documentos únicos e HotPotQAIsso requer lógica multi-hop em vários documentos.
Eles usaram o modelo LAMA-3.1-8B com uma janela de contexto de 128.000 tokens. Para RAG, eles combinam o LLM com dois sistemas de recuperação para recuperar passagens relevantes para a questão: Básico Algoritmo BM25 e incorporações OpenAI. Para o CAG, eles inseriram vários documentos do benchmark no prompt e deixaram o modelo decidir quais parágrafos usar para responder à pergunta. Os testes mostraram que o CAG superou ambos os sistemas RAG na maioria das situações.

“Ao pré-carregar todo o contexto do conjunto de testes, nosso sistema elimina erros de recuperação e garante total racionalidade de todas as informações relevantes”, escrevem os pesquisadores. “Essa vantagem é particularmente evidente em situações em que os sistemas RAG podem recuperar passagens incompletas ou inadequadas, levando à geração de respostas abaixo do ideal”.
O CAG também reduz significativamente o tempo de geração de resposta, especialmente à medida que aumenta o comprimento do texto de referência.

O CAG não é uma solução mágica e deve ser usado com cautela. É mais adequado para sistemas onde a base de conhecimento não muda com frequência e é pequena o suficiente para caber na janela de contexto do modelo. As empresas também devem ter cuidado nos casos em que seus documentos contenham fatos conflitantes com base no contexto dos documentos, o que pode confundir o modelo durante a inferência.
A melhor maneira de determinar se o CAG é bom para sua aplicação é executar alguns testes. Felizmente, o CAG é relativamente fácil de implementar e deve sempre ser considerado como um primeiro passo antes de investir em soluções RAG mais intensivas em desenvolvimento.
Source link




