Ja jūs ar nepacietību gaidītu jaunāko OpenAI pavasara atjauninājumu ChatGPT un cerētu, ka uzņēmums izlaidīs GPT-5, jūs šajā ziņā būtu vīlušies. Bet tas, ko OpenAI ir izlaidis, to vairāk nekā kompensētu.
Uzņēmums nesen atklāja savu jaunāko vadošo modeli – GPT-4o – un tas ir cilvēka inovāciju šedevrs. “O” GPT-4o nozīmē “omni”, un tas ir trāpīgs mājiens uz ChatGPT jaunākajām visuresošajām iespējām. Lai gan intelekta un spriešanas daļā nav daudz uzlabojumu salīdzinājumā ar GPT-4 modeli, jaunajam modelim ir krasi uzlabojumi ātrumā un multimodalitātē.
Ko tas nozīmē? GPT-4o ir uzlabotas teksta, balss un redzes iespējas. Tas var labāk saprast un apspriest attēlus. Taču pati aizraujošākā atjauninājuma daļa ir tā spēja sarunāties ar jums reāllaikā, izmantojot audio un video, ievedot mūs cilvēka un mašīnas mijiedarbības nākotnē. Lielākā daļa no mums tikai iztēlojās šo zinātniskās fantastikas mijiedarbību ar mākslīgo intelektu. Bet tas ir šeit, un tas ir saviļņojoši.
Mira Murati, OpenAI tehnoloģiju direktore, kopā ar diviem pētniecības vadītājiem demonstrēja jaunās GPT-40 iespējas.
Balss modelim ir neticama personība un tonalitāte, kas var likt (uz brīdi) aizmirst, ka mijiedarbojaties ar AI. Tas ir šausmīgi aizraujoši. Atbildes ir daudz dabiskākas, un tas pat smejas un izliekas, ka nosarkst kā cilvēks.
Demonstrācijā tika izcelts arī to emociju diapazons, ko ChatGPT var parādīt, kad viņam tiek skaidri jautāts: Stāstot stāstu, ChatGPT iesūca balsi ar vairāk emocijām un drāmu, pārslēdzās uz robotizētu skaņu un pat dziedāja kā mūziklā, un tas arī izdevās. viss nemanāmi.
Daudzi lietotāji saka, ka balss viņiem atgādina Skārletas Johansones AI no filmas “Viņa”, taču tā ir tāda pati balss, kāda bija ChatGPT agrāk. Visu atšķirību rada tonalitātes izmaiņas un daži labi izvietoti smiekli.
Savienojot to ar tā iespējām redzēt ekrānā redzamo saturu un reaģēt uz to, tas ir patiesi satriecoši. Ar savām jaunajām redzes iespējām ChatGPT varēja ne tikai saprast tādas lietas kā lineāri vienādojumi, bet arī lieliski interpretēja apkārtni, kā arī emocijas cilvēka sejā, kas tam tika parādīta, izmantojot kameru. Tagad varat pat spēlēt akmens šķēres un lūgt ChatGPT būt tiesnesim vai spert soli tālāk intervijas sagatavošanai ar ChatGPT, lūdzot tai kritizēt jūsu apģērbu, un tas neatstās nekādu sliktu izvēli.
Kopumā efekts ir ievērojams un gandrīz liek domāt, ka mijiedarbojaties ar īstu personu videozvana laikā (ja otra persona visu laiku bija izslēgta kamerā).
https://www.youtube.com/watch?v=DQacCB9tDaw
Balss modelis kopumā ir arī labāks nekā pašlaik pieejamais. Dialogs plūst vairāk kā dabiska saruna, kur jūs varat to pārtraukt vidū, tas var saprast un atšķirt vairākas balsis un fona trokšņus, kā arī balss toni.
Tehniskā līmenī tas ir tāpēc, ka GPT-4o var paveikt visu, kas līdz šim bija vajadzīgs trīs dažādiem modeļiem: transkripcijai, izlūkošanai un teksta pārvēršanai runā. Šie uzlabojumi nodrošina lietotājam visaptverošāku, sadarbības pieredzi, nevis iepriekšējo modeļu latentumu.
Lai gan piekļuve GPT-4o jau ir sākusies bezmaksas, kā arī Plus lietotājiem tīmekļa lietotnē, jaunais balss režīms ar GPT-4o turpmākajās nedēļās tiks palaists alfa versijā tikai ChatGPT Plus lietotājiem. Tiek izlaista arī jauna MacOS ChatGPT lietotne, kurai piekļuve tiek nodrošināta iteratīvi, sākot no ChatGPT Plus lietotājiem.
Lai gan demonstrācija bija diezgan iespaidīga, mums būs jāgaida, lai redzētu, vai reālā lietojumprogramma būs tikpat gluda, kad modelis beidzot tiks izlaists.
Atbildēt