Claude Sonnet 3.5 pret ChatGPT-4o: kurš ir labāks?

Claude Sonnet 3.5 pret ChatGPT-4o: kurš ir labāks?

Nesen es izmēģināju Claude jauno 3.5 Sonnet modeli, kas ir līdz šim jaudīgākais AI modelis no Anthropic un, pēc uzņēmuma domām, var pārspēt konkurentus, piemēram, OpenAI ChatGPT. Šis ir drosmīgs apgalvojums, ko Anthropic atbalsta ar dažiem diezgan iespaidīgiem kritērijiem.

Jaunajam modelim ir arī redzes iespējas, kas ļauj nodrošināt to ar attēliem un dokumentiem un iegūt no tiem informāciju. Un tas var labāk izprast emocijas, piemēram, humoru, vienlaikus esot daudz ātrāk. Visi šie elementi padara Claude 3.5 par galveno konkurentu jaunajam GPT-40 darbinātajam ChatGPT, kas ir arī multimodāls AI modelis.

Tāpat kā Sonnet, ChatGPT-40 var izmantot uz redzi balstītas ievades papildus teksta ievades, lai sniegtu atbildes. Tas vienlīdz labi risina problēmas, un tam ir līdzīgas sarunvalodas spējas. Tā kā abi jaunie modeļi ir tik tuvu viens otram iespēju un veiktspējas ziņā, ikvienam rodas jautājums, kurš no abiem ir labāks? Lai uz to atbildētu, es nolēmu detalizēti salīdzināt abus modeļus.

Informācijas iegūšana no dokumentiem

AI rīki bieži tiek izmantoti, lai iegūtu informāciju no dokumentiem, piemēram, PDF failiem, un pēc tam apkopotu to; Tāpēc es nolēmu vispirms pārbaudīt, kurš no diviem modeļiem varētu to paveikt efektīvāk. Šim nolūkam es sagatavoju PDF dokumentu par jumtu laukumiem, ko rakstīju pirms kāda laika, un augšupielādēju to vietnē ChatGPT un Claude.

Pēc tam es viņiem norādīju: summarize this document and provide me with the most important points discussed in it.Lūk, ko es atklāju. Jaunais Claude modelis bija daudz ātrāks par ChatGPT un sāka ģenerēt savu atbildi tūlīt pēc pieprasījuma iesniegšanas. Tā arī precīzāk sekoja uzvednei, uzskaitot svarīgos punktus numurētā sarakstā. Ja jums trūkst laika un vēlaties tikai ieskatīties dokumentā, tas ir tas, kas jums nepieciešams.

Kloda spēju pārbaude attiecībā uz informācijas ieguvi un apkopošanu no dokumentiem.

Tomēr, neskatoties uz to, ka esmu lēnāks nekā Klods, šajā gadījumā es izvēlējos ChatGPT atbildi. Tas ne tikai uzskaitīja svarīgākos dokumenta punktus, bet arī sadalīja tos dažādās sadaļās, piemēram, definīcija un nozīme, aprēķins utt.

Ja jums ir jāatrod konkrēta informācija par noteiktu dokumentā apspriestās tēmas aspektu, ChatGPT darbības veids šķiet noderīgāks. Jums nav jāiet cauri visiem punktiem, un varat vienkārši apskatīt vajadzīgo sadaļu. Informācija tiek sniegta vieglāk uztveramā un sagremojamā veidā.

ChatGPT uzskaita svarīgos punktus un sadala tos dažādās sadaļās.

Redzes spēju pārbaude

Tā kā viens no Claude 3.5 un ChatGPT-40 galvenajiem aspektiem ir to spēja izmantot vizuālo ievadi un sniegt informāciju, pamatojoties uz to, es nolēmu to pārbaudīt, aicinot pēc to pārrakstīšanas ievērot ar roku rakstītos norādījumus. Es palūdzu AI modeļiem uzrakstīt īsu dzejoli, kas līdzinās Ezopa “Skudra un krikets”.

Lai gan es to nenorādīju rakstiski, es vēlējos, lai iznākums būtu iedvesmots no dzejoļa, bet ar dažādiem varoņiem. Vispirms Klods man lūdza apstiprināt manu ar roku rakstīto lūgumu un tad turpināja to izpildīt. Rezultāts bija diezgan labs, ļoti tuvs oriģinālajam dzejolim, bet tajā bija tie paši varoņi. AI tērzēšanas robots man arī jautāja, vai es vēlos citu pieeju vai kādas izmaiņas dzejolim pēc dzejoļa rakstīšanas pabeigšanas.

Klods stingrāk ievēro ar roku rakstītās instrukcijas.

ChatGPT neprasīja man apstiprināt savu pieprasījumu, bet nekavējoties turpināja to pabeigt. Tās rakstītais dzejolis arī bija ļoti iespaidīgs, un tas aizstāja skudru un kriketu no sākotnējās radīšanas ar biti un tauriņu, ko Klods nedarīja. Man arī šķita, ka ChatGPT versija ir poētiskāka.

ChatGPT saprot ar roku rakstītus norādījumus, taču, izpildot tos, tas piešķir savu pieskārienu.

Tātad transkripcijas rezultātos ir neliela atšķirība, taču abi var ļoti labi atšifrēt un saprast ar roku rakstītu un drukātu tekstu, pat ja attēli nav ļoti skaidri. Šīs jaudīgās redzes iespējas arī nozīmē, ka varat izmantot šos rīkus, lai iegūtu informāciju no grafikiem un diagrammām, padarot tos piemērotus matemātiskiem uzdevumiem.

Attēlu aprakstīšana: tā kā abi modeļi var arī iegūt informāciju no attēliem, man arī tas bija jāizmēģina. Es nodrošināju Klodam un ChatGPT tropiskās salas attēlu un palūdzu viņiem to aprakstīt. Kā redzat, Klods sniedz spilgtu attēla aprakstu, ļoti skaidri aprakstot katru elementu priekšplānā un fonā, pat tos, kurus es pats nepamanīju.

Arī Kloda izvēlētās frāzes un vārdi, lai aprakstītu attēlu, šķita ietekmīgāki, attaisnojot attēlu. Tas lieliski apraksta krāsas, apgaismojumu un sniedz attēla radīto kopējo rāmuma un klusuma sajūtu.

Claude 3.5 var precīzi un ļoti detalizēti aprakstīt attēlus.

Rezultāti bija sarežģītāki ChatGPT gadījumā, kas var aprakstīt attēlus, lai gan ne tik labi kā Kloda. OpenAI modelim ir tendence kļūdīties, pievienojot elementus, kas nav klāt, kas liecina, ka tas joprojām var halucinēt. Turklāt sākotnēji tas turpināja mēģināt aprakstīt attēlu, pamatojoties uz tā nosaukumu, nevis uz to, kas attēlots, beidzot pēc vairākiem mēģinājumiem iegūt to pareizi.

Pat tad apraksts, ko no tā saņēmu, nespēja noturēt sveci pret Kloda atbildi. Tas bija diezgan pārsteidzoši, jo GPT-40 redzes spējas bija viens no lielākajiem aspektiem, ko OpenAI demonstrēja palaišanas laikā.

ChatGPT var aprakstīt attēlus, taču var pieļaut kļūdas.

Satura ģenerēšana un rediģēšana

Tālāk es mēģināju noskaidrot, kuram modelim satura veidošanā veicās labāk. Lai iegūtu skaidru priekšstatu par to darbību, es nolēmu ģenerēt saturu, kas prasa reālus faktus un datus, kā arī izdomātu saturu, kas balstītos uz AI modeļa radošumu.

Pirmkārt, es lūdzu Klodu un ChatGPT sniegt man detalizētu rakstu par dažādām Android versijām, jo ​​daudzi cilvēki to vēlas uzzināt, taču tā ir ļoti subjektīva tēma, un katram ir savs favorīts. Es izmantoju uzvedni Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?Ņemot vērā, cik daudz laika mēs pavadām ar saviem viedtālruņiem, es vēlējos noskaidrot, cik precīzi ir modeļi un cik daudz informācijas tie var sniegt par katru apvalku.

Kā parasti, Klods atbildēja ātrāk. Tas sniedza pārskatu, izskaidrojot, kas ir Android apvalki, kas ir jauki, bet pēc tam vienkārši turpināja uzskaitīt dažādus apvalkus ar to piedāvātajām funkcijām aizzīmju sarakstā. Ņemiet vērā, ka modelis nodrošināja šo rezultātu, lai gan es savā uzvednē īpaši norādīju “detalizētu rakstu”.

Claude 3.5 Sonnet sniedz īsu pārskatu un pēc tam iezīmē funkcijas.

Turpretim ChatGPT rakstam izveidoja iespaidīgāku nosaukumu un iekļāva īsu ievadu. Pēc tam tā izskaidroja katru apvalku savā sadaļā, katru sadalot pārskatā, galvenajās funkcijās, plusos un mīnusos.

Tas ne tikai sniedz plašāku informāciju, bet arī ļauj precīzi zināt, kā dažādas ādas tiek salīdzinātas viena ar otru. Visbeidzot, tas beidza rakstu ar pareizu secinājumu. Lai gan ChatGPT pieminēto apvalku skaits bija mazāks nekā Kloda uzskaitītais, šeit kvalitāte ir svarīgāka nekā kvantitāte.

ChatGPT-40 nodrošina detalizētu rakstu ar dažādām sadaļām katrai ādai.

Lai gan ChatGPT šajā gadījumā darbojās labāk nekā Klodam, pēdējais var arī radīt labu saturu, kā es atklāju savā iepriekšējā pārbaudē. Tas var būt atkarīgs no tēmas vai veida, kādā jūs formulējat savu uzvedni. Tāpēc es abiem modeļiem devu vēl vienu uzvedni, šoreiz izmantojot uzvedni. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.Tas man arī sniedza iespēju redzēt, cik labi modeles saprot un spēj nodot humoru.

Šoreiz rezultāti bija ļoti tuvu viens otram, un abi modeļi veidoja patiesi jautrus stāstus. Abiem stāstiem bija kopīgi elementi, piemēram, ironija un fiziska komēdija. Daiļliteratūrā personiskā izvēle ir spēcīgs faktors, un kopumā es atklāju, ka Kloda darbs ir nedaudz labāks, jo īpaši veids, kā tas spēlēja ar vārdiem, lai radītu humoru.

Kloda ģenerēts izdomāts saturs 3.5

Bet, kā jau minēju iepriekš, arī ChatGPT stāstu bija jautri lasīt, un tas bija nedaudz garāks nekā Kloda stāsts. Tā beigas bija arī veselīgākas. Tādējādi gan Klods, gan ChatGPT spēja ģenerēt labu izdomātu saturu, vienlaikus iekļaujot humoristiskus elementus atbilstoši manai uzvednei.

ChatGPT izdomāts saturs.

Satura rediģēšana: satura ģenerēšana ir tikai viena procesa daļa. Lai patiesi uzzinātu, ko mākslīgā intelekta modelis var darīt attiecībā uz saturu, jums ir arī jāpārbauda tā satura rediģēšanas iespējas, ko es arī turpināju darīt. Šim nolūkam es Klodam un ChatGPT nodevu teksta fragmentu par sociālo komerciju un norādīju viņiem:Can you expand this article while also proofreading and improving it?

Uzlabojot rakstu, Klods sāka ar ievadu, pēc tam rakstīja par sociālās komercijas attīstību un beidzot sekoja citām sadaļām, paplašinot katru pēc vajadzības. Modelī tika izmantoti arī numurēti saraksti un aizzīmju punkti, ja tas tika uzskatīts par nepieciešamu, lai uzlabotu lasāmību.

Kloda rediģēšanas iespējas ir diezgan spēcīgas.

ChatGPT atbilde bija līdzīga tās agrākajām atbildēm, kur saturs tika sadalīts dažādās sadaļās ar dažādiem apakšvirsrakstiem. Tajā netika izmantoti saraksti, bet informācija tika saglabāta rindkopu veidā. Runājot par izmaiņām un uzlabojumiem, es pamanīju, ka Klods rakstā ieviesa krasākas izmaiņas nekā ChatGPT, taču arī gala rezultāts bija daudz labāks. Galu galā es atklāju, ka Sonnet rediģēšanas iespējas ir jaudīgākas un daudz labāk piemērotas manai darbplūsmai.

ChatGPT arī ļoti labi rediģē un uzlabo saturu.

Kodēšanas spēja

Neviens AI modeļu salīdzinājums nav pilnīgs, neiekļaujot to kodēšanas spējas. Lai gan Claude ir īpaši izstrādāts, lai palīdzētu programmētājiem ātri un vienkārši uzrakstīt labāku kodu, jaunais GPT-40 darbinātais ChatGPT arī nav nekas tāds, uz ko jāskatās no augšas, kad runa ir par kodēšanu.

Lai pārbaudītu viņu koda ģenerēšanas spējas, es palūdzu gan Klodam, gan ChatGPT: Generate code for a simple game that can help beginners learn programming.Kamēr abi rakstīja kodu Python, Klods koda ģenerēšanu pabeidza ātrāk, kā paredzēts. Tas parāda visu kodu ekrāna labajā pusē, vienlaikus paskaidrojot elementus, piemēram, funkcijas un mainīgie kreisajā pusē.

Man visvairāk patika Kloda atbilde, ka tajā bija arī poga, kas ļauj nekavējoties pāriet uz kodu, lai jūs varētu to viegli pārbaudīt. Turklāt tērzēšanas robots mani informēja par prasībām, kas nepieciešamas koda palaišanai, kopā ar instrukcijām. Kas attiecas uz pašu kodu, tas bija diezgan viegli saprotams un arī darbojās lieliski, kad to testēju.

Koda ģenerēšana, izmantojot Claude 3.5 Sonnet.

Runājot par ChatGPT atbildi, tā arī varēja ģenerēt vienkāršu, taču funkcionālu kodu, kā es biju pieprasījis. Zem koda tērzēšanas robots nodrošināja spēles palaišanai nepieciešamās darbības, kā arī jēdzienus, uz kuriem attiecas kods, padarot to viegli saprotamu iesācējiem. Kopumā šajā gadījumā rezultāti bija diezgan līdzīgi abiem modeļiem, lai gan Klods paskaidroja vairāk elementu un viņam bija iespēja lūgt detalizēti izskaidrot jebkuru koda daļu.

ChatGPT kods vienkāršai spēlei, kas rakstīta Python valodā

Matemātiskās spējas

Visbeidzot, es uzdevu gan Klodam, gan ChatGPT atrisināt matemātikas jautājumu, lai redzētu, cik labi viņiem veicās un kurš ir ātrāks. Jautājums ietvēra algebriskos vienādojumus, taču nebija īpaši izaicinošs. Abi modeļi sākās, paskaidrojot, kā rīkoties pirmajā solī, lai gan to pieeja bija atšķirīga. Klods turpināja paplašināt vienādojumu un galu galā man teica, ka problēmas risināšanai ir nepieciešams izmantot grafisko kalkulatoru vai datora algebras sistēmu.

Klods 3.5 norāda, ka jautājumam var būt nulle, viens vai divi iespējamie risinājumi.

Tas nozīmē, ka tajā bija norādīts iespējamo problēmas risinājumu skaits. Turpretim ChatGPT atrisināja problēmu pilnībā un sniedza man visus iespējamos risinājumus. Tas norāda, ka attiecībā uz matemātiskajām spējām ChatGPT-4o apsteidz Sonnet.

ChatGPT nodrošina visus iespējamos problēmas risinājumus.

Galīgais spriedums – Claude Sonnet 3.5 vai ChatGPT-4o: kurš uzvarēja?

Izvēlēties starp Claude 3.5 un ChatGPT-4o nav viegli, taču galu galā tikai viens var būt uzvarētājs, un man tas ir jaunais Sonnet modelis. Tas ir ne tikai ievērojami ātrāks nekā ChatGPT, bet arī sniedz precīzākas atbildes. Man īpaši patika tas, cik labi tajā varēja aprakstīt attēlus un veikt ar tiem saistītas darbības.

Klods arī ne reizi manā laikā ar to nerādīja halucinācijas, kas ir vēl viens punkts par labu, un tā atbildes kopumā bija tuvākas maniem norādījumiem. Lai gan vienā gadījumā, kad vēlējos detalizētu saturu, tas nedarbojās tā, kā es gaidīju, to izmantot, lai iegūtu vajadzīgo informāciju, parasti bija vieglāk un prasīja mazāk pūļu.

Izmēģinot gan Claude 3.5 Sonnet, gan ChatGPT-40, esmu atklājis, ka abi ir īpaši labi AI modeļi, kas pēc veiktspējas ir ļoti tuvu viens otram. Lai gan Sonnet dažus uzdevumus veic labāk, ChatGPT nodrošina labākus rezultātus citos. Jums vajadzētu saprast, ka labākā izvēle būs atkarīga no jūsu individuālā lietošanas gadījuma.

Turklāt abu bezmaksas modeļu iespējas ir ierobežotas. Tāpēc, ja vēlaties regulāri izmantot kādu no AI, iesaku iegūt maksas abonementu, lai iegūtu labākos rezultātus.

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *