LLM Benchmark Comparison 2026

Compare benchmark scores across 92 large language models. Sort by Arena ELO, Coding ELO, HumanEval, MMLU, MATH, and GPQA. Click any column to sort, or explore individual leaderboards below.

Individual Leaderboards

Arena ELO

Benchmark Rankings

Provider:

92 of 92 models

Model	Arena ELO	Coding ELO	Reasoning ELO	HumanEval	MMLU	MATH	GPQA
Claude Opus 4Anthropic	1503	1503	1503	95.2	91.5	85.4	74.8
Gemini 2.5 ProGoogle	1430	1430	1430	94	92	90.5	74
o3OpenAI	1340	1320	1350	98	95	96	94
DeepSeek R1DeepSeek	1310	1330	1350	93	89	91	72
o1OpenAI	1310	1310	1330	96	92	94	92
Qwen 3 235B MoEAlibaba	1310	1290	1320	92	88	168	80
Gemini Experimental 1206Google	1300	1280	1310	--	--	160	75
GPT-4.5OpenAI	1290	1295	1290	93	89	152	70
DeepSeek R1 (Groq)Groq	1290	1270	1300	91	85	152	70
Llama 4 MaverickMeta	1290	1280	1275	91.5	88	78	60.5
DeepSeek R1 (Together)Together AI	1290	1270	1300	91	85	152	70
Grok 3xAI	1285	1280	1295	92	87	74	55
Claude Sonnet 4Anthropic	1280	1305	1275	92	88.7	78.3	65.2
DeepSeek V3DeepSeek	1280	1300	1260	92	87.5	78.5	59
Gemini 2.0 Flash ThinkingGoogle	1280	1270	1290	--	--	144	65
o3-miniOpenAI	1280	1285	1295	93	86	84	87
Claude 3.5 SonnetAnthropic	1270	1300	1270	92	88.3	136	60
Gemini 2.5 FlashGoogle	1270	1260	1270	88	86	136	60
o1-miniOpenAI	1270	1280	1280	92	85	136	60
ChatGPT-4o LatestOpenAI	1265	1270	1265	91	89	132	57.5
Gemini 2.0 FlashGoogle	1260	1240	1230	88	85.5	73.5	52.8
GPT-4oOpenAI	1260	1265	1250	90.2	88.7	76.6	53.6
o4-miniOpenAI	1260	1270	1275	88	85	75	60
Qwen 2.5 MaxAlibaba	1260	1250	1240	88.5	86	76	55
QwQ 32BAlibaba	1260	1250	1270	--	--	128	55
GPT-4o (Aug 2024)OpenAI	1255	1265	1255	90.2	88.7	124	52.5
DeepSeek R1 Distill Llama 70BDeepSeek	1250	1240	1260	91	86	120	50
Llama 4 ScoutMeta	1250	1230	1220	88	85	72.5	53
Mistral LargeMistral	1245	1240	1230	89	86.5	74	55
Command ACohere	1240	1230	1240	87	85	112	45
DeepSeek R1 Distill Qwen 32BDeepSeek	1240	1235	1250	90	85	112	45
Llama 3.1 405B (Fireworks)Fireworks AI	1240	1200	1250	89.5	85.9	112	45
GPT-4 TurboOpenAI	1240	1245	1240	88	86	112	45
Grok 2xAI	1240	1225	1240	87	85	112	45
Llama 3.1 405BMeta	1240	1200	1250	89.5	85.9	112	45
Sonar ReasoningPerplexity	1240	1235	1250	88	85	112	45
Llama 3.1 405B (Together)Together AI	1240	1200	1250	89.5	85.9	112	45
Gemini 1.5 ProGoogle	1230	--	1230	89	87	104	40
Grok 2 VisionxAI	1230	--	1230	--	--	104	40
Pixtral LargeMistral AI	1230	--	1230	--	--	104	40
Qwen 2.5 72BAlibaba	1230	1210	1230	89	85	104	40
Qwen 2.5 72B (Together)Together AI	1230	1210	1230	89	85	104	40
Amazon Nova ProAmazon	1220	1210	1220	87	85	96	40
Claude 3.5 HaikuAnthropic	1220	1250	1220	85	83	96	40
Claude Haiku 4Anthropic	1220	1195	1185	86.5	83	68.2	48.5
Llama 3.3 70B (Fireworks)Fireworks AI	1220	1180	1220	88	86.2	96	40
GPT-4o MiniOpenAI	1220	1200	1180	87.2	82	70.2	43.9
Llama 3.3 70B (Groq)Groq	1220	1180	1220	88	86.2	96	40
Llama 3.3 70BMeta	1220	1180	1220	88	86.2	96	40
Mistral Medium 3Mistral AI	1220	--	1220	85	84	96	40
Llama 3.3 70B (Together)Together AI	1220	1180	1220	88	86.2	96	40
Llama 3.2 90B VisionMeta	1210	--	1210	88	84	88	40
Command R+Cohere	1200	1160	1170	80.5	82	60	42
DeepSeek V2.5DeepSeek	1200	1220	1200	85	84	80	40
Mixtral 8x22B (Fireworks)Fireworks AI	1200	1220	1200	85	83	80	40
Gemini 2.0 Flash LiteGoogle	1200	1170	1160	82	80	65	42
GPT-4 1OpenAI	1200	1210	1200	85	86	70	49
Sonar ProPerplexity	1200	1195	1210	86	84	80	40
WizardLM-2 8x22BMicrosoft	1200	1220	1200	85	83	80	40
Llama 3.1 70BMeta	1195	--	1195	85.9	85.2	76	40
Phi-3.5 MoEMicrosoft	1195	1190	1195	84	82	76	40
Gemini 1.5 FlashGoogle	1190	--	1190	82	82	72	40
Gemma 2 27BGoogle	1190	1195	1190	82	81	72	40
Mistral SmallMistral	1185	1160	1150	82.5	79	62.5	40
Yi-Large01.AI	1185	1195	1185	83	82	68	40
GPT-4 1.5-miniOpenAI	1180	1200	1180	84	82	60	40
Grok 3-minixAI	1175	1190	1175	84	82	62	40
Amazon Nova LiteAmazon	1170	1160	1170	77	80	56	40
Gemma 2 9B (Groq)Groq	1170	1160	1170	78	77	56	40
Phi-3 MediumMicrosoft	1170	1175	1170	81	83	56	40
Yi-Lightning01.AI	1165	1170	1165	79	80	52	40
Gemma 2 9BGoogle	1160	1155	1160	78	77	48	40
Mixtral 8x7B (Groq)Groq	1160	1150	1160	80	74	48	40
Llama 3.2 11B VisionMeta	1160	--	1160	78	80	48	40
Phi-3.5 MiniMicrosoft	1160	1165	1160	79	81	48	40
Qwen 2.5 7BAlibaba	1160	--	1160	78	79	48	40
SonarPerplexity	1160	1170	1160	80	80	48	40
InternLM 2.5 20BShanghai AI Lab	1155	1150	1155	77	78	44	40
Gemini 1.5 Flash 8BGoogle	1150	--	1150	75	78	40	40
GPT-4 1.5-nanoOpenAI	1150	1160	1150	78	78	50	40
Phi-4Microsoft	1150	1130	1140	80	80.5	72	45
Command RCohere	1140	1100	1110	75	75.5	52	35
Mistral Nemo 12BMistral AI	1140	--	1140	78	72	40	40
Amazon Nova MicroAmazon	1130	1100	1130	71	76	40	40
Command R7BCohere	1120	1100	1120	71	72	40	40
GPT-3.5 TurboOpenAI	1120	1100	1120	65	70	40	40
Llama 3.1 8B (Groq)Groq	1120	--	1120	72	79	40	40
Llama 3.1 8BMeta	1120	--	1120	72	79	40	40
Mistral 7BMistral AI	1100	--	1100	71	62	40	40
Mistral 7B (Together)Together AI	1100	1090	1100	71	62	40	40
Codestral 22BMistral AI	--	1250	--	92	--	--	--
Qwen 2.5 Coder 32BAlibaba	--	1290	--	94	--	--	--