Google izlaiž Gemini Live, uzņēmuma atbildi uz ChatGPT uzlaboto balss režīmu

Google Made by Google pasākums ir oficiāli beidzies, kur uzņēmums atklāja savu vadošo Pixel sērijas viedtālruņu jaunāko klāstu. Baumu dzirnavas pēdējo nedēļu laikā ir smagi strādājušas par to, ka viena un daudzas baumas beidzot ir pārvērstas realitātē. Turklāt, kā jau gaidīts, pasākumā bija arī vairāk nekā daži — patiesībā diezgan daudz — AI pieminējumi.

Cita starpā AI viens svarīgs paziņojums ir Gemini Live palaišana. Google paziņoja par Gemini Live savā I/O konferencē šī gada sākumā. Beidzot tas ir pieejams Gemini Advanced abonentiem operētājsistēmā Android angļu valodā, drīzumā būs pieejams vairākās valodās un iOS (izmantojot Google lietotni).

Izmantojot Gemini Live, Gemini tagad spēj uzturēt dabiskākas, divvirzienu sarunas. Varat arī to pārtraukt atbildes laikā, tāpat kā jebkurā dabiskā sarunā. Android ierīcē varat atvērt lietotni Gemini, lai sarunātos ar tērzēšanas robotu.

Tas ir līdzīgs uzlabotā balss režīma pieredzei lietotnē ChatGPT, kas tagad ir ierobežota alfa versija ChatGPT Plus lietotājiem. Vienu reizi Google ir izvirzījis sevi priekšā OpenAI izlaišanas laika skalā, uzsākot plašāku izlaišanu.

Gemini Live ir pieejams arī brīvroku režīmā, lai jūs varētu runāt ar Gemini fonā vai pat tad, kad tālrunis ir bloķēts. Varat arī atstāt sarunas vidū un atgriezties pie tām vēlāk.

Google izlaiž Gemini Live 10 jaunās balsīs, lai jūsu sarunas ar AI varētu jums justies vēl autentiskākas; varat izvēlēties balsi un toni, kas rezonē ar jums.

Proti, Gemini Live nevar simulēt nevienu citu balsi, izņemot lietotnē pieejamās 10 balsis, iespējams, lai izvairītos no autortiesību problēmām. ChatGPT-4o ievēro to pašu politiku. Ir viena joma, kurā Gemini Live nav tas pats, kas ChatGPT-4o balss režīms. Pirmie nevar saprast jūsu emocijas no jūsu toņa, ko OpenAI demonstrēja viņu tērzēšanas robots.

Turklāt ir arī viena Gemini Live iespēja, ko Google demonstrēja I/O konferencē, kas nebūs pieejama palaišanas brīdī. Jā, mēs runājam par multimodālām ieejām. Ja nezināt, kas tas bija, neuztraucieties. Šeit ir kopsavilkums: izmantojot multimodālos ievades veidus, Gemini Live var reāllaikā iegūt ievades datus no tālruņa kameras (gan fotoattēlus, gan videoklipus) un atbildēt uz visiem jautājumiem vai palīdzēt noteikt objektus, uz kuriem norādāt. Piemēram, varat norādīt to uz kādu dīdžeja aprīkojumu un lūgt, lai tas identificē daļas nosaukumu, vai arī varat norādīt to uz ekrāna un jautāt, ko dara noteikta koda daļa.

Taču multimodālās iespējas pagaidām tiek aizkavētas, un Google ir tikai teicis, ka tās ieradīsies vēlāk šogad, bez precīzas informācijas. Interesanti, ka ChatGPT-4o uzlabotajam balss režīmam arī ir paredzētas līdzīgas iespējas, taču tās arī nav palaistas ar ierobežotu alfa izlaišanu.

Proti, Gemini Live ir solis ceļā uz Google, lai īstenotu Project Astra.

Saruna ar tērzēšanas robotu dažreiz ir daudz ērtāka nekā kaut ko rakstīt, it īpaši, ja vēlaties kaut ko izdomāt. Un ar Gemini Live saruna var būt daudz nemanāmāka. Vai arī tiešraides demonstrācijas no notikuma Made by Google liecina, ka tas ir pietiekami nevainojams. (Acīmredzot tērzēšanas robots radīja halucinācijas tiešraides demonstrācijas laikā, un, pārbaudot funkciju “Pārtraukt Gemini vidū”, ir vērojama zināma berze). Paskatīsimies, kā klājas reālajā pasaulē, vai ne? Sagatavojieties testēt Gemini Live savā Pixel, Samsung vai citās Android ierīcēs nākamo nedēļu laikā, sākot no šodienas.