O DeepSeek-R1 de código aberto usa aprendizado por reforço puro para corresponder ao OpenAI o1 – custo 95% menor

O DeepSeek-R1 de código aberto usa aprendizado por reforço puro para corresponder ao OpenAI o1 – custo 95% menor

21 Janeiro 2025

A empresa construiu o DeepSeek-R1 usando puro aprendizado por reforço em cima do DeepSeek-V3-Base e igualou ou superou o1 em alguns benchmarks.

Source link