Para as atualizações mais recentes e o conteúdo exclusivo do melhor aplicativo de IA do setor, junte -se ao boletim diário e semanal. Saber mais
Inferência através do COT (cadeia de outros), um processo que resolve o problema com o “pensamento” de que o modelo pode ser gerenciado antes de deduzir a resposta, tornou-se uma parte essencial da mais recente geração de modelos de linguagem grande de fronteira (LLM).
No entanto, o motivo do raciocínio do modelo pode se acumular rapidamente, pois o modelo gera tokens excessivos de COT. UM Novo papelPesquisadores da Universidade Carnegie Mellon sugerem desenvolvedores com tecnologia educacional LLM que podem controlar melhor a duração do berço.
A tecnologia chamada LCPO (otimização de políticas controlada por comprimento) fornece a resposta certa no modelo e mantém o “pensamento” dentro de um orçamento de token predeterminado. As experiências mostram que os modelos treinados com LCPOs fornecem um comércio suave entre precisão e custo e podem superar os modelos maiores na mesma duração de raciocínio. O LCPO pode ajudar a reduzir significativamente os custos de raciocínio em aplicativos corporativos, salvando milhares de tokens em cada diálogo com o LLM.
O desempenho do LLM leva a lâmpadas mais longas
Modelos de inferência como o OpenAI O1 e Deepseek-R1 são educados para criar um tempo de teste de escala por meio do aprendizado de reforço (RL) e criar um rastreamento de berço antes de criar uma resposta. De acordo com evidências empíricas, quando o modelo “pensa”, tende a mostrar melhor desempenho na tarefa de raciocínio.
Por exemplo, o R1 foi treinado inicialmente para RLS puro sem rotulagem humana. Uma das idéias é que você aprendeu a criar camas mais longas à medida que o desempenho do modelo é melhorado.
Em geral, as cadeias de berços longas têm respostas mais precisas, mas ao aplicar modelos de raciocínio para escalar, eles criam um gargalo de cálculo. Há pouco controle sobre o orçamento atual da computação no tempo de teste, e a sequência pode ser facilmente expandida para dezenas de milhares de tokens sem fornecer lucros significativos. Houve um esforço para controlar a duração da cadeia de inferência, mas, em geral, o desempenho do modelo é reduzido.
O LCPO (otimização de política controlada por comprimento) explicou
O método RL clássico treina o LLM para obter a resposta correta. O LCPO apresenta dois objetivos de treinamento para mudar esse paradigma. 1) Obtenha os resultados corretos e 2) Mantenha a cadeia do cot no comprimento específico do token. Portanto, o modelo cria a resposta certa, mas se você criar muitos tokens de COT, receberá uma penalidade e alcançará a mesma resposta, mas precisará apresentar uma cadeia de raciocínio razoável com um pequeno orçamento de token.
Os pesquisadores disseram: “Os modelos treinados pela LCPO aprendem a atender às restrições de comprimento, otimizando o desempenho do raciocínio, em vez de confiar no hub de engenharia caseiro.
Eles sugerem dois sabores do LCPO. (1) O Exacto LCPO requer exatamente o mesmo que o comprimento do alvo e requer o LCPO-MAX.
Para testar essa tecnologia, os pesquisadores ajustaram o modelo de raciocínio de 1,5b (QWEN-Distiled-R1-1.5b) nos dois sistemas LCPO propostos para criar os modelos Exactos L1-Max e L1. O treinamento é baseado em problemas matemáticos de consequências distintas e verificáveis. No entanto, a avaliação incluiu tarefas universais, como matemática e grande entendimento de linguagem multitarefa.Mmlu) Tecnologia e nível de pós-graduação em nível de referência à prova do Google Benchmark (Gpqu).
Sua pesquisa mostra que o modelo L1 pode equilibrar o orçamento do token e o desempenho do raciocínio e instar modelos com raciocínio e comprimentos curtos e eficientes como uma restrição, e podem interpolar o raciocínio mais preciso. É importante ressaltar que, em algumas tarefas, o modelo L1 pode reproduzir o desempenho do modelo de raciocínio original com um orçamento de baixo token.
Comparado ao S1, o único outro método que limita o comprimento do COT, o modelo L1 tem um ganho de desempenho de até 150%em outros orçamentos de token.
Os pesquisadores disseram: “Essas diferenças reais podem ser devidas a dois fatores principais. “(1) (1) L1 não interfere no processo de raciocínio, mas aplica inteligentemente leitos dentro de uma restrição de comprimento específica, enquanto o S1 geralmente corta a classe intermediária. (2) L1 é explicitamente treinado para criar uma variedade de cadeias de raciocínio de alta qualidade, distinguindo efetivamente os padrões de raciocínio de cadeias mais longas a cadeias curtas.
L1 também supera 5% no mesmo comprimento de produção e 2% do GPT-4O. Os pesquisadores disseram: “Como sabemos, esta é a primeira demonstração de que esta é a primeira demonstração de que o modelo de 1,5b pode superar o modelo de fronteira, como o GPT-4O, mesmo que o modelo 1,5b use o mesmo comprimento.
Curiosamente, o berço do modelo mostra como ajustar o processo de raciocínio de acordo com o orçamento do token. Por exemplo, se o orçamento for mais longo, é provável que esse modelo crie um token associado à sua própria conquista e verificação (ou seja, “mas” espera “) e conclusão (” SO “e” So “).

Além de melhorar o controle de comprimento nas configurações padrão de raciocínio matemático, o modelo L1 é surpreendentemente generalizado para o trabalho não natural, incluindo GPQA e MMLU.
Essa nova linha de pesquisa para modelos que podem ajustar os orçamentos de raciocínio pode ter um uso importante em aplicativos reais, e as empresas fornecem a capacidade de expandir o modelo de raciocínio sem o custo de fugir. É uma alternativa poderosa para simplesmente distribuir modelos maiores e mais caros, e pode ser um fator importante para tornar a IA mais economicamente mais economicamente em uma grande quantidade de aplicações reais.
Os pesquisadores divulgaram sua divulgação Código LCPO e O peso do modelo L1.
Link da fonte