Jakość i operacje AI🔥 Trending 2026LLM-as-judgePo ludzkuW praktyceTechnicznieUżywasz dużego modelu (np. Claude/GPT-4) jako sędziego do oceny outputów innego modelu. Skalujesz eval bez armii adnotatorów, kosztem nieco subiektywnej oceny.Mylone z:evalbenchmarkPowiązane:EvalBenchmarkUdostępnij:Kopiuj linkLinkedInXKopiuj definicję