„Welcome to the Era of Experience” (Bun Venit în Era Experienței) a fost cel mai citit și citat pdf din ultima săptămână. Lucrarea a fost publicată pe 26 aprilie 2025 de către doi cercetătorii renumiți în domeniul inteligenței artificiale, David Silver și Richard S. Sutton. Este schițat un viitor în care agenții învață și se adaptează continuu prin propriile experiențe din lumea reală, depășind limitele datelor centrate pe om.
Inteligența artificială a făcut progrese remarcabile în ultimii ani, fiind antrenată pe cantități masive de date generate de oameni și perfecționată cu ajutorul exemplelor și preferințelor experților umani.
Cu toate acestea, în domenii cheie precum matematică, programare și științe, cunoștințele extrase din datele obținute de la oameni se apropie rapid de o limită. Majoritatea surselor de date de înaltă calitate – cele care pot îmbunătăți cu adevărat performanța unui agent inteligent – au fost deja consumate sau vor fi în curând.
Pentru a progresa semnificativ, este necesară o nouă sursă de date. Aceste date trebuie generate într-un mod care să se îmbunătățească continuu pe măsură ce agentul devine mai puternic; orice procedură statică pentru generarea de date sintetice va fi rapid depășită. Soluția constă în a permite agenților să învețe neîncetat din propria lor experiență, adică din datele generate prin interacțiunea cu mediul înconjurător.
Astfel, inteligența artificială se află în pragul unei noi ere, în care experiența va deveni principalul motor al progresului și, în cele din urmă, va depăși ca amploare datele umane folosite în sistemele actuale. Această tranziție promite să inaugureze un nivel de abilitate fără precedent.
Te invit să parcurgi în continuare versiunea preliminară a unui capitol ce va apărea în cartea „Designing an Intelligence”, publicată de MIT Press, pentru a explora în detaliu această nouă paradigmă. Dacă dorești să citești versiunea originală, în limba engleză, o găsești aici.
David Silver, Richard S. Sutton
Ne aflăm în pragul unei noi ere în inteligența artificială, care promite să atingă un nivel de abilitate fără precedent. O nouă generație de agenți va dobândi capacități supraumane învățând predominant din experiență. Această lucrare explorează caracteristicile cheie care vor defini această eră viitoare.
Inteligența artificială (IA) a făcut progrese remarcabile în ultimii ani prin antrenarea pe cantități masive de date generate de oameni și prin ajustarea fină cu exemple și preferințe de la experți umani. Această abordare este exemplificată de modelele lingvistice mari (LLM) care au atins un nivel cuprinzător de generalitate. Un singur LLM poate acum îndeplini sarcini variind de la scrierea de poezii și rezolvarea problemelor de fizică la diagnosticarea problemelor medicale și rezumarea documentelor legale.
Cu toate acestea, deși imitarea oamenilor este suficientă pentru a reproduce multe capacități umane la un nivel competent, această abordare izolată nu a atins și probabil nu poate atinge inteligența supraumană în multe subiecte și sarcini importante.
În domenii cheie precum matematica, programarea și știința, cunoștințele extrase din datele umane se apropie rapid de o limită. Majoritatea surselor de date de înaltă calitate – cele care pot îmbunătăți efectiv performanța unui agent puternic – au fost deja, sau vor fi în curând, consumate. Ritmul progresului determinat exclusiv de învățarea supervizată din datele umane încetinește în mod demonstrabil, semnalând necesitatea unei noi abordări. Mai mult, noi perspective valoroase, cum ar fi noi teoreme, tehnologii sau descoperiri științifice, se află dincolo de granițele actuale ale înțelegerii umane și nu pot fi surprinse de datele umane existente.
Pentru a progresa semnificativ, este necesară o nouă sursă de date. Aceste date trebuie generate într-un mod care se îmbunătățește continuu pe măsură ce agentul devine mai puternic; orice procedură statică pentru generarea sintetică de date va fi rapid depășită. Acest lucru poate fi realizat permițând agenților să învețe continuu din propria lor experiență, adică din datele generate de agent prin interacțiunea cu mediul său. IA se află la începutul unei noi perioade în care experiența va deveni mediul dominant de îmbunătățire și, în cele din urmă, va depăși scara datelor umane utilizate în sistemele de astăzi.
Această tranziție ar fi putut deja începe, chiar și pentru modelele lingvistice mari care simbolizează IA centrată pe om. Un exemplu este capacitatea în matematică. AlphaProof a devenit recent primul program care a obținut o medalie la Olimpiada Internațională de Matematică, eclipsând performanța abordărilor centrate pe om. Expus inițial la aproximativ o sută de mii de dovezi formale, create de-a lungul mai multor ani de către matematicieni umani, algoritmul de învățare prin consolidare (RL) al AlphaProof a generat ulterior o sută de milioane de alte dovezi prin interacțiune continuă cu un sistem formal de demonstrare.
Acest accent pe experiența interactivă a permis AlphaProof să exploreze posibilități matematice dincolo de limitele dovezilor formale preexistente, pentru a descoperi soluții la probleme noi și provocatoare. Matematica informală a obținut, de asemenea, succes prin înlocuirea datelor generate de experți cu date auto-generate; de exemplu, lucrări recente de la DeepSeek „subliniază puterea și frumusețea învățării prin consolidare: în loc să învățăm explicit modelul cum să rezolve o problemă, îi oferim pur și simplu stimulentele potrivite, iar acesta dezvoltă autonom strategii avansate de rezolvare a problemelor„.
Un agent experimental poate continua să învețe pe parcursul unei vieți întregi. În era datelor umane, IA bazată pe limbaj s-a concentrat în mare parte pe episoade scurte de interacțiune. De exemplu, un utilizator pune o întrebare și (poate după câțiva pași de gândire sau acțiuni de utilizare a instrumentelor) agentul răspunde. De obicei, puține sau deloc informații sunt transferate de la un episod la altul, excluzând orice adaptare în timp. Mai mult, agentul vizează exclusiv rezultate în cadrul episodului curent, cum ar fi răspunsul direct la întrebarea unui utilizator.
În contrast, oamenii (și alte animale) există într-un flux continuu de acțiuni și observații care continuă timp de mulți ani. Informațiile sunt transportate de-a lungul întregului flux, iar comportamentul lor se adaptează din experiențele trecute pentru a se auto-corecta și a se îmbunătăți. Mai mult, obiectivele pot fi specificate în termeni de acțiuni și observații care se întind mult în viitorul fluxului. De exemplu, oamenii pot selecta acțiuni pentru a atinge obiective pe termen lung, cum ar fi îmbunătățirea sănătății, învățarea unei limbi sau realizarea unei descoperiri științifice.
Agenții puternici ar trebui să aibă propriul lor flux de experiență care progresează, la fel ca oamenii, pe o scară lungă de timp. Acest lucru va permite agenților să întreprindă acțiuni pentru a atinge obiective viitoare și să se adapteze continuu în timp la noi modele de comportament. De exemplu, un agent de sănătate și wellness conectat la dispozitivele purtabile ale unui utilizator ar putea monitoriza tiparele de somn, nivelurile de activitate și obiceiurile alimentare pe parcursul mai multor luni. Apoi ar putea oferi recomandări personalizate, încurajări și și-ar putea ajusta îndrumările pe baza tendințelor pe termen lung și a obiectivelor specifice de sănătate ale utilizatorului. În mod similar, un agent de educație personalizat ar putea urmări progresul unui utilizator în învățarea unei noi limbi, ar putea identifica lacunele de cunoștințe, s-ar putea adapta la stilul său de învățare și și-ar putea ajusta metodele de predare pe parcursul a luni sau chiar ani.
Agenții din era experienței vor acționa autonom în lumea reală. LLM-urile din era datelor umane s-au concentrat în principal pe acțiuni și observații privilegiate de om, care redau text unui utilizator și introduc text de la utilizator înapoi în agent. Acest lucru diferă semnificativ de inteligența naturală, în care un animal interacționează cu mediul său prin control motor și senzori. Deși animalele, și în special oamenii, pot comunica cu alte animale, acest lucru se întâmplă prin aceeași interfață ca și alt control senzorio-motor, mai degrabă decât printr-un canal privilegiat.
De mult timp s-a recunoscut că LLM-urile pot invoca, de asemenea, acțiuni în lumea digitală, de exemplu prin apelarea API-urilor (vezi de exemplu, [43]). Inițial, aceste capacități proveneau în mare parte din exemple umane de utilizare a instrumentelor, mai degrabă decât din experiența agentului. Cu toate acestea, capacitățile de codificare și de utilizare a instrumentelor s-au bazat din ce în ce mai mult pe feedback-ul de execuție, unde agentul rulează efectiv codul și observă ce se întâmplă. Recent, un nou val de agenți prototip au început să interacționeze cu computerele într-o manieră și mai generală, folosind aceeași interfață pe care o folosesc oamenii pentru a opera un computer. Aceste schimbări anunță o tranziție de la comunicarea exclusiv privilegiată de om, la interacțiuni mult mai autonome în care agentul este capabil să acționeze independent în lume. Astfel de agenți vor putea explora activ lumea, se vor adapta la medii în schimbare și vor descoperi strategii la care un om s-ar putea să nu se gândească niciodată. Aceste interacțiuni mai bogate vor oferi un mijloc de a înțelege și controla autonom lumea digitală.
Ce s-ar întâmpla dacă agenții experimentali ar putea învăța din evenimente și semnale externe, și nu doar din preferințele umane?
LLM-urile centrate pe om optimizează de obicei pentru recompense bazate pe prejudecata umană: un expert observă acțiunea agentului și decide dacă este o acțiune bună sau alege cea mai bună acțiune a agentului dintre mai multe alternative. De exemplu, un expert poate judeca sfatul unui agent de sănătate, predarea unui asistent educațional sau experimentul sugerat de un agent om de știință. Faptul că aceste recompense sau preferințe sunt determinate de oameni în absența consecințelor lor, mai degrabă decât măsurând efectul acelor acțiuni asupra mediului, înseamnă că nu sunt direct ancorate în realitatea lumii.
Bazarea pe prejudecata umană în acest mod duce de obicei la un plafon impenetrabil al performanței agentului: agentul nu poate descoperi strategii mai bune care sunt subapreciate de evaluatorul uman. Pentru a descoperi idei noi care depășesc cu mult cunoștințele umane existente, este în schimb necesar să se utilizeze recompense ancorate: semnale care provin din mediul însuși. De exemplu, un asistent de sănătate ar putea ancora obiectivele de sănătate ale utilizatorului într-o recompensă bazată pe o combinație de semnale precum ritmul cardiac în repaus, durata somnului și nivelurile de activitate, în timp ce un asistent educațional ar putea folosi rezultatele examenelor pentru a oferi o recompensă ancorată pentru învățarea limbilor străine.
Va schimba era experienței modul în care agenții planifică și raționează?
Recent, s-au înregistrat progrese semnificative în utilizarea LLM-urilor care pot raționa sau „gândi” cu limbaj, urmând un lanț de gândire înainte de a oferi un răspuns. Conceptual, LLM-urile pot acționa ca un computer universal: un LLM poate adăuga jetoane în propriul context, permițându-i să execute algoritmi arbitrari înainte de a oferi un rezultat final.
În era datelor umane, aceste metode de raționament au fost concepute explicit pentru a imita procesele de gândire umane. De exemplu, LLM-urile au fost stimulate
Procesul de raționament poate fi ajustat în continuare pentru a produce urme de gândire care se potrivesc cu răspunsul corect, așa cum este determinat de experții umani. Cu toate acestea, este foarte puțin probabil ca limbajul uman să ofere instanța optimă a unui computer universal. Cu siguranță există mecanisme de gândire mai eficiente, folosind limbaje non-umane care pot utiliza, de exemplu, calcule simbolice, distribuite, continue sau diferențiabile. Un sistem de auto-învățare poate, în principiu, să descopere sau să îmbunătățească astfel de abordări, învățând cum să gândească din experiență. De exemplu, AlphaProof a învățat să demonstreze formal teoreme complexe într-un mod destul de diferit de matematicienii umani.
Învățarea din experiență nu este nouă. Sistemele de învățare prin consolidare au stăpânit anterior un număr mare de sarcini complexe care au fost reprezentate într-un simulator cu un semnal de recompensă clar (cf., aproximativ, „era simulării” din Figura 1).
De exemplu, metodele RL au egalat sau au depășit performanța umană în jocuri de societate precum table, Go, șah, poker și Stratego; jocuri video precum Atari, StarCraft II, Dota 2 și Gran Turismo; sarcini de manipulare dexteră precum cubul Rubik; și sarcini de gestionare a resurselor precum răcirea centrelor de date. Mai mult, agenți RL puternici, cum ar fi AlphaZero, au prezentat o scalabilitate impresionantă și potențial nelimitată odată cu dimensiunea rețelei neuronale, cantitatea de experiență interactivă și durata timpului de gândire. Cu toate acestea, agenții bazați pe această paradigmă nu au făcut saltul de la simulare (probleme închise cu recompense singulare, definite cu precizie) la realitate (probleme deschise cu o pluralitate de recompense aparent prost definite).
Învățarea prin consolidare – Reinforcement Learning (RL) – are o istorie bogată, adânc înrădăcinată în învățarea autonomă, unde agenții învață singuri prin interacțiune directă cu mediul lor. Cercetările timpurii în RL au produs o suită de concepte și algoritmi puternici. De exemplu, învățarea prin diferențe temporale a permis agenților să estimeze recompensele viitoare, ducând la progrese precum performanța supraumană la table. Tehnicile de explorare, bazate pe optimism sau curiozitate, au fost dezvoltate pentru a ajuta agenții să descopere noi comportamente creative și să evite blocarea în rutine suboptime. Metode precum algoritmul Dyna au permis agenților să construiască și să învețe din modele ale lumii lor, permițându-le să planifice și să raționeze despre acțiunile viitoare.
Apariția erei experienței, în care agenții AI învață din interacțiunile lor cu lumea, promite un viitor profund diferit de tot ce am văzut până acum. Această nouă paradigmă, deși oferă un potențial imens, prezintă, de asemenea, riscuri și provocări importante care necesită o analiză atentă, inclusiv, dar fără a se limita la, următoarele puncte. Pe partea pozitivă, învățarea experiențială va debloca capacități fără precedent. În viața de zi cu zi, asistenții personalizați vor valorifica fluxuri continue de experiență pentru a se adapta la nevoile de sănătate, educaționale sau profesionale ale indivizilor, în vederea atingerii unor obiective pe termen lung, pe parcursul a luni sau ani.
Poate cel mai transformator va fi accelerarea descoperirilor științifice. Agenții AI vor proiecta și vor conduce autonom experimente în domenii precum știința materialelor, medicină sau proiectarea hardware. Învățând continuu din rezultatele propriilor experimente, acești agenți ar putea explora rapid noi frontiere ale cunoașterii, ducând la dezvoltarea de noi materiale, medicamente și tehnologii într-un ritm fără precedent.
Era experienței marchează un moment esențial în evoluția IA. Bazându-se pe fundațiile solide de astăzi, dar depășind limitările datelor derivate de la om, agenții vor învăța din ce în ce mai mult din propriile interacțiuni cu lumea. Agenții vor interacționa autonom cu mediile prin observații și acțiuni bogate. Ei vor continua să se adapteze pe parcursul unor fluxuri de experiență pe tot parcursul vieții. Obiectivele lor vor putea fi direcționate către orice combinație de semnale ancorate. Mai mult, agenții vor utiliza un raționament non-uman puternic și vor construi planuri care sunt ancorate în consecințele acțiunilor agentului asupra mediului său. În cele din urmă, datele experimentale vor eclipsa scara și calitatea datelor generate de om. Această schimbare de paradigmă, însoțită de progrese algoritmice în RL, va debloca în multe domenii noi capacități care le depășesc pe cele deținute de orice om.
(Secțiunea de Referințe conține o listă de lucrări științifice și nu a fost tradusă pentru a păstra acuratețea citărilor originale.)
P.S. Am intrat în Era Experienței. Cum ne vom asigura că experiențele pe care le vor avea sistemele AI sunt aliniate cu cele mai bune valori ale umanității? O întrebare la care merită să reflectăm împreună.
P.P.S. Viitorul se scrie acum. Era Experienței nu este doar o evoluție tehnică, ci o schimbare fundamentală. Care crezi că va fi primul domeniu din viața ta transformat radical de un AI care învață singur? Lăsă-mi un comentariu mai jos cu părerea ta! Și… dacă acest articol te-a pus pe gânduri, distribuie-l unui prieten pasionat de tehnologie pentru a porni o conversație despre ceea ce urmează.
Mulțumesc!
Revoluția AI în Sănătate prin MedGemma de la Google și MedSigLIP – GHID COMPLET
Care sunt cele mai bune platforme AI pentru conținut și business
Cum aplici Principiile Persuasiunii lui Cialdini în Marketingul Digital cu AI
Cum Măsori Eficient Campaniile de YouTube Ads: Strategii Full-Funnel care Cresc ROI-ul cu 10%
Cum să creezi un canal de News pe YouTube cu ajutorul AI: Ghidul complet pentru începători