GPT-4o – AI, które widzi, słyszy i mówi na żywo
V 2024 · Era agentowa
Pierwszy masowy model natywnie multimodalny. Rozmowa głosowa w czasie rzeczywistym dla każdego.
OpenAI pokazało GPT-4o ('o' od omni) – jeden model rozumiejący tekst, obraz i dźwięk naraz, z rozmową głosową niemal bez opóźnień. To on dał głos i wizję w darmowym ChatGPT.
Po co Ci to
To wersja ChatGPT, którą realnie pokazujesz klientom: mówisz, pokazujesz, dostajesz odpowiedź na żywo.
Ciekawostka
Demo głosu GPT-4o brzmiało tak naturalnie, że wywołało spór o podobieństwo do głosu Scarlett Johansson. OpenAI wycofało jeden z głosów.
