kunstig intelligens

Nå har OpenAI gjort det enklere å snakke med AI-en

OpenAI lanserer GPT-4o: En ny AI-modell med multimodale evner.

OpenAI har lansert GPT-4o.

Foto: OpenAI

Redaksjonen shifter.no redaksjonen@shifter.no

Publisert 14.05.2024 - 07:48

OpenAI kunngjorde mandag en ny flaggskipsmodell for generativ AI, kalt GPT-4o. Modellen, der «o» står for «omni», kan håndtere tekst, tale og video. GPT-4o vil bli rullet ut gradvis over selskapets utvikler- og forbrukerprodukter de neste ukene, rapporterer TechCrunch.

OpenAI CTO Mira Murati uttalte at GPT-4o tilbyr «GPT-4-nivå» intelligens, men forbedrer GPT-4s evner på tvers av flere modaliteter og medier.

– GPT-4o resonerer over stemme, tekst og visjon, sa Murati under en direktesendt presentasjon ved OpenAIs kontorer i San Francisco på mandag. – Dette er utrolig viktig, fordi vi ser på fremtiden for interaksjon mellom oss selv og maskiner.

GPT-4o forbedrer opplevelsen i OpenAIs AI-drevne chatbot, ChatGPT. Plattformen har lenge tilbudt en stemmemodus som transkriberer chatbotens svar ved hjelp av en tekst-til-tale-modell, men GPT-4o forsterker dette, slik at brukere kan interagere med ChatGPT mer som en assistent.

Brukere kan for eksempel stille et spørsmål til GPT-4o-drevne ChatGPT og avbryte den mens den svarer. Modellen leverer responsivitet i sanntid, ifølge OpenAI, og kan plukke opp nyanser i brukerens stemme og generere stemmer i et utvalg av forskjellige emosjonelle stiler (inkludert sang).

GPT-4o oppgraderer også ChatGPTs visuelle evner. Gitt et bilde – eller en dataskjerm – kan ChatGPT nå raskt svare på relaterte spørsmål, fra emner som «Hva skjer i denne programkoden?» til «Hvilket merke skjorte har denne personen på seg?»

Disse funksjonene vil utvikle seg ytterligere i fremtiden, sier Murati. Mens GPT-4o i dag kan se på en meny på et annet språk og oversette den, kan modellen i fremtiden tillate ChatGPT å for eksempel «se» en direktesendt sportsbegivenhet og forklare reglene for deg.

– Vi vet at disse modellene blir mer og mer komplekse, men vi ønsker at opplevelsen av interaksjon faktisk skal bli mer naturlig, enkel, og at du ikke skal fokusere på brukergrensesnittet i det hele tatt, men bare fokusere på samarbeidet med ChatGPT, sa Murati.

– De siste årene har vi vært veldig fokusert på å forbedre intelligensen til disse modellene... Men dette er første gang vi virkelig tar et stort skritt fremover når det gjelder brukervennlighet.

GPT-4o er også mer flerspråklig, ifølge OpenAI, med forbedret ytelse på rundt 50 språk. Og i OpenAIs API og Microsofts Azure OpenAI Service er GPT-4o dobbelt så rask, til halv pris og har høyere grenseverdier enn GPT-4 Turbo, ifølge selskapet.

Foreløpig er tale ikke en del av GPT-4o API for alle kunder. OpenAI, med henvisning til risikoen for misbruk, planlegger å først lansere støtte for GPT-4os nye lydfunksjoner til «en liten gruppe pålitelige partnere» i løpet av de kommende ukene.

Få gratis nyhetsbrev

Abonner på Shifters nyhetsbrev for de siste nyhetene, trendene og analysene.

Artikkelen er laget med hjelp av ChatGPT og kvalitetsjekket av Shifters redaksjon.