ChatGPT, superstarul inteligenței artificiale, s-a confruntat cu o întrebare pe măsură ce continuă să avanseze: a îndeplinit standardul de testare Turing pentru generarea de rezultate care nu se pot distinge de răspunsurile umane? Cele mai recente cercetări sugerează că ChatGPT, în ciuda performanței sale excelente, nu pare să fi depășit pe deplin acest prag.
Doi cercetători de la Universitatea din California, San Diego, Cameron Jones, expert în limbaj, semantică și învățare automată, și Benjamin Bergen, profesor de științe cognitive, au pus această întrebare referindu-se la munca lui Turing de acum 70 de ani. Turing a propus un proces pentru a determina dacă o mașină poate atinge un nivel de inteligență și capacitate de conversație suficientă pentru a-i păcăli pe alții făcându-i să creadă că este uman.
Raportul lor este intitulat „GPT-4 trece testul Turing?” Poate fi găsit pe serverul arXiv preprint. Pentru studiu, ei au adunat 650 de participanți pentru a juca 1.400 de „jocuri” în care participanții au avut o scurtă conversație cu un alt model uman sau GPT și au fost rugați să determine cu cine vorbesc.
Ceea ce au descoperit cercetătorii a fost remarcabil. Modelul GPT-4 i-a păcălit pe participanți în 41% din cazuri, în timp ce GPT-3.5 i-a păcălit doar în 5 până la 14% din timp. Interesant este că oamenii au reușit să convingă participanții că nu erau mașini doar în 63 la sută din studii.
„Nu am găsit nicio dovadă că GPT-4 a trecut testul Turing”, au concluzionat cercetătorii. Cu toate acestea, ei observă că testul Turing încă mai are valoare în evaluarea efectelor conversațiilor automate, ca cadru pentru măsurarea interacțiunilor sociale fără probleme și înșelăciunea și în înțelegerea strategiilor umane de adaptare la aceste dispozitive.
Totuși, aceștia avertizează și că, în multe cazuri, chatboții vor putea în continuare să comunice într-un mod convingător. „Rata de succes de 41% sugerează că modelele AI pot avea deja capacitatea de a înșela, mai ales în situațiile în care oamenii sunt mai puțin atenți la posibilitatea ca ei să nu vorbească cu un om”, notează cercetătorii. Modelele AI care imită puternic oamenii ar putea avea implicații sociale și economice largi.”
Cercetătorii au observat că participanții care au identificat corect AI cu oamenii s-au concentrat pe mai mulți factori. Un model prea formal sau prea informal ridică suspiciuni. Dacă expresia lor este prea pronunțată sau prea concisă, dacă gramatica sau punctuația lor este neobișnuit de bună sau „neconvingător” slabă, va fi, de asemenea, un factor cheie în a determina dacă participanții interacționează cu oamenii sau cu mașinile. În plus, participanții au fost sensibili la răspunsurile care păreau prea generice.
Cercetătorii sugerează că urmărirea modelelor de inteligență artificială va deveni din ce în ce mai importantă pe măsură ce acestea devin mai fluide și absorb mai multe ciudatenii umane. „Identificarea factorilor care duc la înșelăciune și strategiile de atenuare a acesteia va deveni din ce în ce mai importantă”, au spus aceștia. Studiul dezvăluie că domeniul conversației inteligente se confruntă în continuare cu provocări, dar oferă și informații utile despre modul în care modelele AI pot fi îmbunătățite.
