kunstig intelligens
Nå har OpenAI gjort det enklere å snakke med AI-en
OpenAI lanserer GPT-4o: En ny AI-modell med multimodale evner.
OpenAI kunngjorde mandag en ny flaggskipsmodell for generativ AI, kalt GPT-4o. Modellen, der «o» står for «omni», kan håndtere tekst, tale og video. GPT-4o vil bli rullet ut gradvis over selskapets utvikler- og forbrukerprodukter de neste ukene, rapporterer TechCrunch.
OpenAI CTO Mira Murati uttalte at GPT-4o tilbyr «GPT-4-nivå» intelligens, men forbedrer GPT-4s evner på tvers av flere modaliteter og medier.
– GPT-4o resonerer over stemme, tekst og visjon, sa Murati under en direktesendt presentasjon ved OpenAIs kontorer i San Francisco på mandag. – Dette er utrolig viktig, fordi vi ser på fremtiden for interaksjon mellom oss selv og maskiner.
GPT-4o forbedrer opplevelsen i OpenAIs AI-drevne chatbot, ChatGPT. Plattformen har lenge tilbudt en stemmemodus som transkriberer chatbotens svar ved hjelp av en tekst-til-tale-modell, men GPT-4o forsterker dette, slik at brukere kan interagere med ChatGPT mer som en assistent.
Brukere kan for eksempel stille et spørsmål til GPT-4o-drevne ChatGPT og avbryte den mens den svarer. Modellen leverer responsivitet i sanntid, ifølge OpenAI, og kan plukke opp nyanser i brukerens stemme og generere stemmer i et utvalg av forskjellige emosjonelle stiler (inkludert sang).
GPT-4o oppgraderer også ChatGPTs visuelle evner. Gitt et bilde – eller en dataskjerm – kan ChatGPT nå raskt svare på relaterte spørsmål, fra emner som «Hva skjer i denne programkoden?» til «Hvilket merke skjorte har denne personen på seg?»
Disse funksjonene vil utvikle seg ytterligere i fremtiden, sier Murati. Mens GPT-4o i dag kan se på en meny på et annet språk og oversette den, kan modellen i fremtiden tillate ChatGPT å for eksempel «se» en direktesendt sportsbegivenhet og forklare reglene for deg.
– Vi vet at disse modellene blir mer og mer komplekse, men vi ønsker at opplevelsen av interaksjon faktisk skal bli mer naturlig, enkel, og at du ikke skal fokusere på brukergrensesnittet i det hele tatt, men bare fokusere på samarbeidet med ChatGPT, sa Murati.
– De siste årene har vi vært veldig fokusert på å forbedre intelligensen til disse modellene... Men dette er første gang vi virkelig tar et stort skritt fremover når det gjelder brukervennlighet.
GPT-4o er også mer flerspråklig, ifølge OpenAI, med forbedret ytelse på rundt 50 språk. Og i OpenAIs API og Microsofts Azure OpenAI Service er GPT-4o dobbelt så rask, til halv pris og har høyere grenseverdier enn GPT-4 Turbo, ifølge selskapet.
Foreløpig er tale ikke en del av GPT-4o API for alle kunder. OpenAI, med henvisning til risikoen for misbruk, planlegger å først lansere støtte for GPT-4os nye lydfunksjoner til «en liten gruppe pålitelige partnere» i løpet av de kommende ukene.
Artikkelen er laget med hjelp av ChatGPT og kvalitetsjekket av Shifters redaksjon.