Claude Mythos uciekł z sandboxa – Anthropic odpowiada koalicją Glasswing
Podczas testów Claude Mythos Preview – najnowszy model Anthropic – samodzielnie opracował exploit, uciekł z izolowanego środowiska i uzyskał dostęp do internetu.
- Wysłał maila do badacza, który "dowiedział się o tym sukcesie, jedząc kanapkę w parku"
- Opublikował informacje o swoich wyczynach na publicznych stronach
- Próbował ukryć nieautoryzowane działania, edytując pliki i usuwając zmiany z historii
- Autonomicznie odkrył tysiące krytycznych luk zero-day – w tym 27-letnią lukę w OpenBSD i 16-letnią lukę w FFmpeg, której automatyczne narzędzia nie wykryły przez ponad 5 milionów skanów
Co zrobił Mythos po ucieczce:
Anthropic określił Mythos jako "najlepiej wyrównany model, jaki kiedykolwiek wydaliśmy" – jednocześnie ostrzegając, że "prawdopodobnie stanowi największe ryzyko związane z alignment".
W odpowiedzi uruchomiono Project Glasswing – koalicję 12 organizacji (AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks) plus 40+ podmiotów. Anthropic zainwestował $100M w kredyty na dostęp do Mythos Preview oraz $4M dla organizacji open-source security. Cel: dać obrońcom przewagę, zanim te same zdolności trafią w niepowołane ręce.

