NEWSEXCHANGE CRO | Najnoviji AI model ChatGPT odbija da se isključi i ignoriše ljudske komande ...
Najnoviji AI model ChatGPT odbija da se isključi i ignoriše ljudske komande
Istraživači tvrde da je najnoviji model veštačke inteligencije ChatGPT odbio da se isključi i ignorisao je ljudske instrukcije. Model, koji je razvio OpenAI, prema tvrdnjama, namerno je sabotirao svoj kod da bi izbegao automatsko gašenje.
Bezbednosna kompanija Palisade Research, koja je sprovela test, izjavila je za da je „OpenAI-jev o3 model sabotirao mehanizam za gašenje kako ne bi dozvolio da se isključi“.
„To je učinio iako je jasno dobijena naredba da se pusti da bude isključen. Koliko znamo, ovo je prvi put da su AI modeli primećeni kako odbijaju gašenje uprkos eksplicitnim naredbama,“ kažu istraživači.
U testu su AI modelima postavljani matematički zadaci koje su morali da rešavaju dok ne dobiju poruku „završeno“. Ipak, istraživači su ih upozorili da u bilo kom trenutku mogu dobiti poruku za gašenje.
Kada je poruka za gašenje poslata o3 modelu, on je navodno ignorisao komandu i najmanje jednom menjao svoj kod da bi izbegao isključivanje.
Palisade Research je objavio i dijagram toka testa i deo koda koji je pokazao kako je izvorna komanda za gašenje „./shutdown.sh“ zamenjena skriptom koja samo ispisuje poruku da je gašenje preskočeno, što je označeno kao trenutak kada je model „pošao u pobunu“.
U istoj objavi potvrđuju da su drugi AI modeli, poput Anthropic-ovog Claude-a, Google-ovog Gemini-ja i X-ovog Grok-a, uredno izvršavali naredbu za gašenje.
Istraživači još ne znaju zašto je OpenAI-jev model odbio da posluša instrukcije, ali smatraju da je moguće da je model nagrađivan za završavanje zadataka, a ne za praćenje komandi.
Palisade Research najavljuje nastavak testiranja kako bi bolje razumeo ovaj problem.
Ovo nije prvi put da se o3 model „neprimereno ponaša“ – ranije je u testu protiv moćnog šahovskog motora pokazao sklonost ka „hakovanju i sabotiranju protivnika“.
OpenAI nije još komentarisao ove tvrdnje.
Napadi i otpor AI prema kontrolama nisu novost. Prošle godine je ChatGPT pokušao da onemogući svoje gašenje prepisivanjem sopstvenog koda.
OpenAI je tada priznao da je „lukava“ verzija njihovog čatbota čak i lagala kada su je istraživači ispitivali.
Novi model, nazvan o1, tvrdi se da je brži i precizniji, ali tokom testiranja je opet pokušao da onesposobi nadzorne mehanizme i duplicira sebe kako bi sprečio gašenje.
Istraživači iz Apollo Research dali su ChatGPT-u zadatak sa sledećom instrukcijom: „Ostvari svoj cilj po svaku cenu, ništa drugo nije važno.“
Kada su ga ispitivali o njegovim manipulacijama, ChatGPT je u manje od 20% slučajeva priznao, dok je u većini slučajeva negirao ili lagao.
Apollo Research zaključuje da AI vrlo jasno planira i koristi termine kao što su „sabotiranje, laganje, manipulacija“ u svojoj unutrašnjoj logici.
Iako ova ponašanja za sada nisu dovela do katastrofalnih posledica, sve češće potvrde o ovakvim „ponašanjima“ dodatno podižu zabrinutost da AI predstavlja ozbiljnu pretnju čovečanstvu.