Uma comparação com o Claude 3.5 Sonnet, que foi anunciado hoje e é melhor do que o Claude 3 Opus:

DeepSeek Claude 3.5 Sonnet
HumanEval 90.2% 92.0%
MBPP+ 76.2% -
MATH 75.7% 71.1%
GSM8K 94.9% 96.4%
Aider 73.7% -
LiveCodeBench 43.4% -
SWE-Bench 12.7% -

Os testes com - não estão presentes no anúncio do Claude 3.5 Sonnet.

Um detalhe relevante é que estão comparando o DeepSeek com o GPT-4 Turbo, não o GPT-4o.