Início Ciência e tecnologia O DeepSeek-R1 de código aberto usa aprendizado por reforço puro para corresponder...

O DeepSeek-R1 de código aberto usa aprendizado por reforço puro para corresponder ao OpenAI o1 – custo 95% menor

6
0


A empresa construiu o DeepSeek-R1 usando puro aprendizado por reforço em cima do DeepSeek-V3-Base e igualou ou superou o1 em alguns benchmarks.

Source link