Benchmark
„Standardowy egzamin dla modeli – jak SAT, tylko dla AI.”
MMLU (ogólna wiedza), HumanEval (kodowanie), SWE-bench (real coding tasks), GPQA (graduate-level science), MMMU (multimodal). Jak wybierasz model, sprawdź benchmark relevantny dla Twojego use case.
Po co Ci to: Punkt odniesienia – ale nigdy nie zastępuje evalu na Twoich realnych danych.
🥚Benchmark to średnia z liceum. Twój eval to rozmowa kwalifikacyjna.
