Výsledky benchmarku

Full 10 warm – hlavní provozní benchmark

Přehled běhů

BěhCelkemOKInvalidSkipPokrytí
Core 5 FAST warm30271296.4%
Core 5 THINK warm30271296.4%
Full 10 FAST warm60533494.6%
Full 10 THINK warm60542496.4%

Srovnání modelů

ModelCoverage %Wall clock (s)TTFT (s)tok/s E2Edecode tok/sSalvage
Gemma 4 26B80%18.83.543.854.83
Gemma 4 31B100%87.75.38.18.81
Gemma 4 E4B90%17.63.141.4521
Nemotron 3 Nano 30B100%16.33.452.266.31
Nemotron 3 Super 120B100%6116.113.418.40
Qwen 3.5 122B100%47.712.315.821.62

Matice statusů – Full 10 FAST warm

OK = použitelný výstup, INV = formálně nepoužitelný, SKIP = mimo schopnosti modelu

Use caseGemma 4 26BGemma 4 31BGemma 4 E4BNemotron 3 Nano 30BNemotron 3 Super 120BQwen 3.5 122B
CEO e-mailOKOKOKOKOKOK
Zápis z jednáníOKOKOKOKOKOK
Analýza smlouvyOKOKOKOKOKOK
Výběr dodavateleOKOKOKOKOKOK
Knowledge baseOKOKOKOKOKOK
Dashboard briefingOKOKOKSKIPSKIPOK
Faktura → JSONINVOKOKSKIPSKIPOK
Board memoOKOKOKOKOKOK
Workflow engineINVOKINVOKOKOK
Interní appkaOKOKOKOKOKOK

Poznámka k metodice

Hlavní benchmark je Full 10 FAST warm. THINK warm slouží jako doplňkový sensitivity test, ne jako čistý akademický reasoning benchmark. Text-only modely mají u vision úloh badge SKIP, nikoli FAIL.