O DeepSeek-R1 de código aberto usa aprendizado por reforço puro para corresponder ao OpenAI o1 – custo 95% menor

A empresa construiu o DeepSeek-R1 usando puro aprendizado por reforço em cima do DeepSeek-V3-Base e igualou ou superou o1 em alguns benchmarks.
Source link



