Lutowy "Model Rush" - największy wysyp modeli AI w historii
Luty 2026 przejdzie do historii jako miesiąc, w którym siedem dużych modeli językowych zadebiutowało niemal jednocześnie – Gemini 3 Pro GA, Claude Sonnet 4.6, GPT-5.3, Qwen 3.5, GLM-5, DeepSeek v4 i Grok 4.20. Rywalizacja USA-Chiny przenosi się bezpośrednio na poziom modeli, a open-source dogania closed-source w tempie niewidzianym wcześniej.
- Claude Sonnet 4.6: 1M tokenów kontekstu (beta), 77% complex reasoning, $3/$15 per milion tokenów, preferowany nad Opusem 4.5 w 59% przypadków
- Gemini 3.1 Pro: 77.1% na ARC-AGI-2 (podwojenie vs 3.0), 1M context, 64K output; Deep Think: 84.6% ARC-AGI-2, złoty medal Olimpiady Fizyki
- Meta Llama 5: Apache 2.0, 2M tokenów, native tool-use, 40% mniej compute, GPT-5-level wydajność
- Alibaba Qwen 3.5: 397B parametrów, 201 języków, 60% tańszy i 8x wydajniejszy od poprzednika
- GPT-5.3-Codex: Steer Mode + Codex-Spark (z Cerebras), pełny SDLC, 25% szybciej od 5.2-Codex
- DeepSeek v4: kontekst do 1M+ tokenów; GLM-5: 744B parametrów do "agentic engineering"
Kluczowe parametry nowych modeli:
Jednocześnie OpenAI wycofuje GPT-4o, GPT-4.1 i o4-mini z ChatGPT – GPT-5.2 staje się domyślny, czas na migrację.
Praktyczny wniosek: przy takiej gęstości innowacji nie gonić za każdym modelem, lecz testować te pasujące do swoich use case'ów. Konteksty 1M-2M tokenów stają się standardem, a open-source (Llama 5, Qwen 3.5) to realna alternatywa dla zamkniętych rozwiązań.
