Kad tika izlaists pirmais AI ģenerētais video, neviens nevarēja uzminēt, ka video ģenerēšanas AI rīki nonāks tik tālu tik īsā laika posmā. Tomēr šodien mums ir neskaitāmas platformas, kas lietotājiem ļauj ģenerēt augstas kvalitātes, neticami detalizētus videoklipus, piemēram, Synthesia un Luma AI’s Dream Machine. Tomēr joprojām ir daži izaicinājumi, kas neļauj šiem rīkiem kļūt par plaši izplatītiem.
Un lielākais, iespējams, ir audio ģenerēšanas process. Lai gan lielākā daļa video ģenerēšanas platformu var radīt labas kvalitātes video, tie lielākoties ir klusi video bez audio. Pat ja ir audio, tas parasti tiek pievienots atsevišķi un neatbilst lietotāja cerībām.
Piemēram, ja apmeklējat Luma AI Dream Machine lapu, varat redzēt dažus ļoti iespaidīgus videoklipus, taču tos pavadošā skaņa ir diezgan vispārīga un zemas kvalitātes. Taču tas var mainīties, izmantojot Google jauno video-audio (V2A) tehnoloģiju.
Tas sola nodrošināt labas kvalitātes audio ģenerēšanu videoklipiem, kas nozīmē, ka tas beidzot ļaus jums izveidot mākslīgā intelekta ģenerētas filmas ar atbilstošiem skaņu celiņiem un audio, pārspējot visus AI radītos videoklipus, kas pašlaik tiek ražoti.
https://www.youtube.com/watch?v=VYjZlF6m3nQ
Kas ir Google DeepMind video-audio izpēte?
Video-to-Audio (V2A) tehnoloģija, ko izstrādājusi Google DeepMind, ir izstrādāta, lai izveidotu skaņu celiņus AI ģenerētiem videoklipiem. Šī tehnoloģija ļauj ģenerēt video un audio vienlaikus, apvienojot dabiskās valodas uzvednes ar video pikseļiem, lai radītu skaņas neatkarīgi no videoklipā notiekošajām darbībām.
Šo tehnoloģiju var savienot pārī ar AI modeļiem, ko izmanto videoklipu ģenerēšanai, piemēram, Veo, un tā var palīdzēt izveidot reālistiskus dialogus un skaņas efektus, kā arī dramatiskus rezultātus, kas atbilst videoklipam. Vēl svarīgāk ir tas, ka jaunā V2A tehnoloģija neaprobežojas tikai ar videoklipiem, kas ģenerēti, izmantojot AI, bet to var arī izmantot, lai ģenerētu skaņu celiņus videoklipiem, kas veidoti tradicionālā veidā. Tādējādi varat to izmantot mēmām filmām, arhīva materiāliem un citiem.
V2A tehnoloģija ļauj lietotājiem ģenerēt neierobežotu skaitu videoklipu skaņu celiņu un pat izmantot pozitīvas un negatīvas uzvednes, lai vadītu skaņas ģenerēšanas procesu un viegli iegūtu nepieciešamās skaņas. Tas arī nodrošina lielāku elastību, lai jūs varētu eksperimentēt ar dažādiem rezultātiem un atrast to, kas ir vislabākais konkrētajam videoklipam.
https://www.youtube.com/watch?v=9Q0-t8D9XFI
Kā darbojas V2A tehnoloģija?
Saskaņā ar Google teikto, uzņēmums eksperimentēja ar difūzijas un autoregresīvām metodēm un atklāja, ka pirmais ir vispiemērotākais skaņas radīšanai. Tas rada ļoti reālistiskas skaņas un darbojas, kodējot video saspiestā formātā.
Pēc tam difūzijas modelis tiek izmantots, lai no video atdalītu nejaušus trokšņus, paļaujoties uz dabiskās valodas uzvednēm un video. Uzvednes palīdz ģenerēt reālistisku audio, kas ir ideāli sinhronizēts ar video. Tam seko audio dekodēšana, pēc kuras tas tiek pārveidots par audio viļņu formu un apvienots ar video.
Google DeepMind sniedza vairāk informācijas, lai apmācītu AI, tāpēc lietotāji var vadīt audio ģenerēšanas procesu līdz vajadzīgajām skaņām un ļauj platformai radīt augstākas kvalitātes audio. Šāda informācija ietvēra runāto dialogu transkriptus un detalizētus skaņu aprakstus ar AI ģenerētām anotācijām.
Apgūstot šādu informāciju, V2A tehnoloģija var saistīt dažādas vizuālās ainas ar konkrētiem audio notikumiem.
Kas ir pie apvāršņa?
DeepMind V2A tehnoloģija darbojas daudz labāk nekā citi V2A risinājumi, jo tai ne vienmēr ir nepieciešama teksta uzvedne un tā var saprast video pikseļus. Skaņas izvade arī nav manuāli jāsaskaņo ar video. Tomēr joprojām pastāv daži tehnoloģijas ierobežojumi, kurus Google cenšas pārvarēt, veicot turpmākus pētījumus.
Piemēram, ģenerētā audio kvalitāte ir atkarīga no kā ievades izmantotā video kvalitātes. Ja videoklipā ir izkropļojumi vai artefakti, mākslīgā intelekta modelis tos nesaprot, jo tie nav iekļauti apmācībā, kā rezultātā samazinās audio kvalitāte.
Turklāt attiecībā uz videoklipiem, kuros ir cilvēka runa, uzņēmums strādā, lai uzlabotu lūpu sinhronizāciju. V2A tehnoloģija mēģina ģenerēt runu, izmantojot ievades atšifrējumus, un pēc tam saskaņot to ar video rakstzīmju lūpu kustībām. Tomēr, ja videoklips nav balstīts uz atšifrējumiem, audio un lūpu kustības neatbilst.
Ar labākām audio ģenerēšanas iespējām AI modeļi varēs ģenerēt videoklipus, kas ne tikai izskatās iespaidīgi, bet arī izklausās lieliski. Google arī integrē savu V2A tehnoloģiju ar SynthID, kas apzīmē ūdenszīmes visam saturam, kas ģenerēts, izmantojot AI. Tas var palīdzēt novērst tā ļaunprātīgu izmantošanu, nodrošinot pilnīgu drošību.
Turklāt uzņēmums saka, ka rūpīgi pārbaudīs savu V2A tehnoloģiju pirms tās izlaišanas sabiedrībai. Līdz šim, ņemot vērā to, ko Google ir demonstrējis un solījis nākotnei, šī tehnoloģija ir nozīmīgs sasniegums audio ģenerēšanā AI ģenerētiem videoklipiem.
Atbildēt