MoE· Mixture of Experts
„Zamiast jednego mózgu pracującego na pełnej mocy – panel specjalistów, z których odzywa się tylko ten od tematu.”
Stąd modele typu Mixtral 8×7B (47B parametrów total, ~13B aktywnych) czy DeepSeek-V3 (671B/37B). Płacisz za moc obliczeniową tylko aktywnych ekspertów, nie za cały model.
Po co Ci to: Skala bez kosztów: model wie więcej, a kosztuje jak mniejszy.
🥚MoE to rada ekspertów: każdy specjalista, ale na spotkaniu odzywa się tylko ten od tematu.
