Kloda 3.5 sonets, ko izlaida Anthropic: jauns un iespaidīgs AI modelis

Nesen Anthropic ir ieviesis uzlabojumus savam vadošajam modelim Claude 3.5 Sonnet, kas, iespējams, ir nokļuvuši zem radara citu ievērojamu atjauninājumu, piemēram, datora lietošanas un analīzes rīka, dēļ. Tomēr atjauninātais Claude 3.5 Sonnet ievieš vairākus ievērības cienīgus uzlabojumus.

Lai gan datoru lietošana ir nozīmīgs sasniegums, tā izmantošana lietotāju vidū joprojām ir ierobežota. Tas galvenokārt ir tāpēc, ka tas ir agrīnā attīstības stadijā un tam trūkst pilnīgas uzticamības. Turklāt tā pieejamība ir ierobežota ar API lietošanu, padarot to mazāk pieejamu plašākai auditorijai.

Turpretim jaunais Claude 3.5 Sonnets ir pieejams tūlītējai lietošanai un piedāvā ievērojami uzlabotu veiktspēju. Tātad, kas tieši atšķir šo atjaunināto 3.5 Sonnetu?

Anthropic ziņojumā uzsvērts, ka jaunākais Claude 3.5 Sonnet ir uzrādījis ievērojamus uzlabojumus salīdzinājumā ar iepriekšējiem modeļiem un daudziem konkurentiem nozares etalonos. Īpaši iespaidīgi ir sasniegumi aģentu kodēšanas un rīku izmantošanā. Piemēram, tā ir palielinājusi savu aģentu kodēšanas precizitāti no 33,4% līdz 49% SWE stenda pārbaudē, un aģentu rīku izmantošanai TAU stenda testā tā ir palielinājusies no 51,0% līdz 69,2% mazumtirdzniecībā un no 22,8% līdz 46,0% aviosabiedrību sektorā. Jāatzīmē, ka šie uzlabojumi tiek sasniegti ar tādām pašām izmaksām un ātrumu kā tā priekšgājējs.

Claude 3.5 Sonnet atjauninājums — Avots: Anthropic

Novērtējot, Claude 3.5 Sonnet (jauns), ko daži lietotāji dēvē par 3.6 Sonnet nosaukumu neskaidrības dēļ, parāda ievērojamus sasniegumus, jo īpaši kodēšanas, argumentācijas un radošās rakstīšanas iespējās.

Iepriekš atzīts par vienu no labākajiem kodēšanas izpildītājiem, Klods ir guvis ievērojamus panākumus ar šo atjauninājumu, tagad spēj atrisināt ļoti sarežģītas problēmas ar vienu atbildi. Tas ir arī uzlabojis spēju labot iepriekšējās kļūdas.

Lietotāji atklās, ka jaunais Claude 3.5 Sonnet sniedz atbildes daudz ātrāk, novēršot neapmierinātību, kas radusies ar tā iepriekšējo versiju, kuras veiktspēja bija ievērojami pasliktinājusies.

Klods ir arī uzlabojis savas spriešanas prasmes, salīdzinot ar OpenAI modeli o1. Lai gan tas var neatbilst o1 sarežģītos spriešanas uzdevumos, tas joprojām ir kompetents ar vienkāršākiem argumentācijas izaicinājumiem.

Lai pārbaudītu Kloda argumentāciju, mēģiniet to uzdot, How many words are in your response to this prompt?. Konkrēti, transformatoru arhitektūras modeļi bieži cīnās ar šādiem norādījumiem, jo tiem ir nepieciešams paredzēt turpmākos vārdus. Tomēr šī uzvedne mudina modeli iepriekš izstrādāt stratēģiju.

OpenAI o1 modelis izceļas, efektīvi apstrādājot šo uzvedni. Lai gan jaunais Claude 3.5 Sonnets nesasniedz o1 prasmes, tas ievērojami pārspēj vecāku Claude versiju. Iepriekš Klods, iespējams, izdarīja saprātīgu minējumu, bet tagad tas mēģina precīzi saskaitīt vārdus, lai gan neņemot vērā tos visus vienādi. Galu galā tas, vai Kloda atbilde tiks uzskatīta par pareizu, būs atkarīgs no personīgās interpretācijas.

Let me count the words in my response to your question: This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8). There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.

Saskaņā ar sniegto gadījumu daži lietotāji varētu iebilst, ka Klods precīzi saskaitīja vārdus, kuros viņš uzskatīja savu atbildi. Tajā ir paskaidrots, ka turpmākie vārdi neietilpst tās atbildē, jo tie vienkārši precizē argumentācijas procesu. Lai gan daži varētu neievērot ievadfrāzes “Ļaujiet man saskaitīt vārdus atbildē uz jūsu jautājumu” izlaišanu, citi to var uztvert citādi. Galu galā tas kļūst par personīga sprieduma jautājumu.

Tomēr šis gadījums parāda, ka jaunais Claude 3.5 Sonnet patiešām ir uzlabojis savas argumentācijas spējas. Tagad tas var formulēt savus domāšanas procesus vai teikt: “Atgremot par to, pagaidiet”, kad tas prasa papildu laiku, lai apsvērtu — nedaudz līdzīgi kā o1. Reizēm tas var pat sevi labot, norādot: “Ļaujiet man to pārdomāt.”

Šī tālredzības spēja ir arī veicinājusi Kloda radošās rakstīšanas prasmes. Ar spēju domāt uz priekšu, tas var izveidot paplašinātus stāstījumus, kuros ir sakarīgi loki, priekšvēstures elementi un valdzinoši varoņi.

Turklāt ir gūti ievērojami panākumi tās analītiskajā darbībā. Claude tagad cieši konkurē ar Anthropic plašāko modeli Claude 3 Opus, kā arī OpenAI o1 mini attiecībā uz analīzi.

Rezumējot, jaunākie atjauninājumi ir devuši ievērojamu progresu vairākās dimensijās. Jaunās kodēšanas funkcijas ir izpelnījušās lielu uzmanību. Tomēr pašreizējais Kloda ierobežojums ir lietošanas ierobežojumi, kas ir ievērojami ierobežojošāki pat Pro lietotājiem, salīdzinot ar ChatGPT.

Avots