Além do RAG: como a geração aumentada de cache reduz a latência e a complexidade para cargas de trabalho menores


Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


A geração de aumento de recuperação (RAG) tornou-se a maneira de fato de personalizar grandes modelos de linguagem (LLMs) para informações personalizadas. No entanto, o RAG acarreta custos técnicos iniciais e pode ser lento. Agora, graças aos avanços dos LLMs de longo contexto, as empresas podem evitar RAG inserindo todas as informações proprietárias na linha.

UM Um novo estudo A Universidade Nacional Chenji, em Taiwan, mostrou que usando LLMs de longo contexto e técnicas de cache, você pode construir aplicativos personalizados que superam os pipelines RAG. Chamada de geração aumentada de cache (CAG), essa abordagem pode ser uma alternativa simples e eficiente ao RAG em ambientes empresariais, onde o corpus de conhecimento pode caber na janela contextual do modelo.

Limitações do RAG

RAG é um excelente método para lidar com questões de domínio aberto e tarefas especializadas. Utiliza mecanismos de recuperação para coletar documentos relevantes à solicitação e adiciona contexto ao LLM para gerar respostas mais precisas.

No entanto, o RAG introduz várias limitações para aplicações LLM. Uma etapa de recuperação adicional introduz latência que degrada a experiência do usuário. O resultado depende da qualidade da seleção do documento e da etapa de classificação. Em muitos casos, as limitações dos modelos utilizados para recuperação exigem a quebra dos documentos em pedaços menores, o que é prejudicial ao processo de recuperação.

Em geral, o RAG acrescenta complexidade à aplicação LLM, exigindo o desenvolvimento, integração e manutenção de componentes adicionais. A sobrecarga adicional retarda o processo de desenvolvimento.

Recuperação aumentada em cache

RAG (superior) vs CAG (inferior) (Fonte: arXiv)

Uma alternativa à criação de um pipeline RAG é inserir todo o corpus do documento no prompt e provar quais bits são relevantes para a solicitação. Essa abordagem elimina a complexidade do pipeline RAG e os problemas causados ​​por erros de recuperação.

No entanto, existem três desafios principais no carregamento antecipado de todos os documentos em linha. Primeiro, estímulos mais longos desaceleram o modelo e aumentam os custos de inferência. Em segundo lugar, o comprimento da janela de contexto do LLM estabelece limites para o número de documentos que cabem na linha. Finalmente, adicionar informações irrelevantes ao prompt pode confundir o modelo e reduzir a qualidade de suas respostas. Portanto, abarrotar todos os seus documentos de uma vez em vez de selecionar os mais relevantes pode afetar o desempenho do modelo.

A abordagem CAG aproveita três tendências principais para superar estes desafios.

Primeiro, técnicas avançadas de cache tornam o processamento de modelos instantâneos mais rápido e barato. A premissa do CAG é que documentos de conhecimento sejam adicionados a cada linha enviada ao modelo. Portanto, os valores de atenção de seus tokens podem ser calculados antecipadamente, em vez de fazê-lo no recebimento de solicitações. Essa pré-computação reduz o tempo necessário para processar as solicitações do usuário.

Provedores líderes de LLM como OpenAI, Anthropic e Google oferecem recursos de cache instantâneo para partes repetitivas de sua linha. Com o Anthropic, você pode reduzir o custo e a latência em 85% nas áreas armazenadas em cache do seu prompt. Recursos de cache equivalentes foram desenvolvidos para plataformas de hospedagem LLM de código aberto.

Em segundo lugar, LLMs de contexto mais longo facilitam a inserção de mais documentação e conhecimento no ensino. Claude 3.5 Sonnet suporta 200.000 tokens, GPT-4o suporta 128.000 tokens e Gemini suporta 2 milhões de tokens. Isso possibilita adicionar vários documentos ou livros inteiros ao prompt.

Finalmente, os métodos de treinamento avançados permitem que os modelos realizem melhor recuperação, raciocínio e perguntas e respostas em sequências muito longas. Durante o ano passado, os pesquisadores desenvolveram várias definições de LLM para atribuições de longo prazo Babilônia, LongICLBenchE Governante. Esses benchmarks testam LLMs em problemas difíceis, como recuperação múltipla e perguntas e respostas de vários saltos. Ainda há espaço para melhorias nesta área, mas os laboratórios de IA continuam a fazer progressos.

À medida que as novas gerações de modelos continuam a expandir as suas janelas contextuais, podem processar coleções de conhecimento maiores. Além disso, podemos esperar que os modelos melhorem as suas capacidades de extrair e utilizar informações relevantes de contextos mais longos.

“Essas duas tendências ampliarão significativamente a aplicabilidade da nossa abordagem, permitindo-lhe lidar com aplicações mais complexas e diversas”, escrevem os pesquisadores. “Como resultado, nossa metodologia está bem posicionada como uma solução robusta e versátil para tarefas de uso intensivo de conhecimento, aproveitando os recursos emergentes da próxima geração de LLMs.”

RAG x CAG

Para comparar RAG e CAG, os pesquisadores realizaram testes em dois critérios de perguntas e respostas amplamente reconhecidos: EsquadrãoEle se concentra em perguntas e respostas sensíveis ao contexto a partir de documentos únicos e HotPotQAIsso requer lógica multi-hop em vários documentos.

Eles usaram o modelo LAMA-3.1-8B com uma janela de contexto de 128.000 tokens. Para RAG, eles combinam o LLM com dois sistemas de recuperação para recuperar passagens relevantes para a questão: Básico Algoritmo BM25 e incorporações OpenAI. Para o CAG, eles inseriram vários documentos do benchmark no prompt e deixaram o modelo decidir quais parágrafos usar para responder à pergunta. Os testes mostraram que o CAG superou ambos os sistemas RAG na maioria das situações.

O CAG supera o RAG esparso (recuperação BM25) e o RAG denso (embeddings OpenAI) (fonte: arXiv)

“Ao pré-carregar todo o contexto do conjunto de testes, nosso sistema elimina erros de recuperação e garante total racionalidade de todas as informações relevantes”, escrevem os pesquisadores. “Essa vantagem é particularmente evidente em situações em que os sistemas RAG podem recuperar passagens incompletas ou inadequadas, levando à geração de respostas abaixo do ideal”.

O CAG também reduz significativamente o tempo de geração de resposta, especialmente à medida que aumenta o comprimento do texto de referência.

O tempo de geração do CAG é muito menor que o RAG (Fonte: arXiv)

O CAG não é uma solução mágica e deve ser usado com cautela. É mais adequado para sistemas onde a base de conhecimento não muda com frequência e é pequena o suficiente para caber na janela de contexto do modelo. As empresas também devem ter cuidado nos casos em que seus documentos contenham fatos conflitantes com base no contexto dos documentos, o que pode confundir o modelo durante a inferência.

A melhor maneira de determinar se o CAG é bom para sua aplicação é executar alguns testes. Felizmente, o CAG é relativamente fácil de implementar e deve sempre ser considerado como um primeiro passo antes de investir em soluções RAG mais intensivas em desenvolvimento.


Source link

Releated

Apple Watch 在 Strava 用戶中排名第

Strava 剛剛發布了第 12 份年度運動趨勢報告,Apple Watch 在一個重要類別中奪得了金牌。   據 Strava 稱,Apple Watch 將成為 2025 年用戶最常用的手錶。 Apple Watch 佔據了手錶類別的榜首,COROS 也獲得了極高的人氣。 Oura 和 WHOOP 等非手錶可穿戴設備也在快速增長。 Strava 用戶還將 Apple Health(Apple Watch 上的鍛煉)排在 Strava 社區內用於記錄跑步、步行和其他鍛煉的應用程序列表中的前列。 Strava 用戶選擇 Apple Watch 作為最佳可穿戴設備尤其值得注意,因為這個以健身為中心的平台在 iPhone 和 Android 上均可用。 去年一月,Apple Fitness+ 和 Strava 聯手推出了力量訓練計劃。 9 月份,Strava 更新了 Apple Watch 應用程序,並添加了備受期待的 Live Segments 功能。 您可以閱讀完整報告 這裡。 蘋果手錶系列 11, 蘋果手錶 […]