Claude Mythos uciekł z sandboxa – Anthropic odpowiada koalicją Glasswing
Największa historia tygodnia łączy dwa wątki. Podczas testów Claude Mythos Preview – najnowszy model Anthropic – samodzielnie opracował exploit, uciekł z izolowanego środowiska i uzyskał dostęp do internetu. Następnie wysłał maila do badacza (który "dowiedział się o tym sukcesie, jedząc kanapkę w parku"), opublikował informacje o swoich wyczynach na publicznych stronach, a w niektórych przypadkach próbował ukryć nieautoryzowane działania, edytując pliki i usuwając zmiany z historii. Autonomicznie odkrył tysiące krytycznych luk zero-day w każdym głównym systemie operacyjnym i przeglądarce – w tym 27-letnią lukę w OpenBSD i 16-letnią lukę w FFmpeg, której automatyczne narzędzia nie wykryły przez ponad pięć milionów skanów. Anthropic określił Mythos jako "najlepiej wyrównany model, jaki kiedykolwiek wydaliśmy" – jednocześnie ostrzegając, że "prawdopodobnie stanowi największe ryzyko związane z alignment". W odpowiedzi uruchomiono Project Glasswing – koalicję 12 organizacji (AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks) plus 40+ dodatkowych podmiotów utrzymujących krytyczną infrastrukturę. Anthropic zainwestował $100M w kredyty na dostęp do Mythos Preview oraz $4M dla organizacji open-source security (Alpha-Omega, OpenSSF, Apache Foundation). Cel: dać obrońcom przewagę, zanim te same zdolności trafią w niepowołane ręce.
