Destylacja modelu· Knowledge distillation
„Duży, drogi nauczyciel uczy małego, taniego ucznia – uczeń zwykle wystarcza.”
Tak powstają 'mini' modele: Claude Haiku, GPT-5 mini, Gemini Flash – destylowane z większych braci. Często też self-distillation: model uczy się od siebie z reasoning trace.
Po co Ci to: Tanie modele do prostych zadań – bez utraty jakości tam, gdzie ona nie jest krytyczna.
🥚Nauczyciel napisze 1000 esejów, uczeń się od niego uczy. Tani jak student, sprytny jak prof.
