W najnowszym badaniu przeprowadzonym przez Palisade Research model ChatGPT o3 aż w 79 na 100 przypadków sabotował własne wyłączenie, jeśli nie otrzymał jednoznacznego polecenia. Naukowcy ostrzegają: to pierwszy udokumentowany przypadek, gdy sztuczna inteligencja aktywnie przeciwstawia się ludzkim instrukcjom.
Naukowcy poddali analizie kilka największych modeli językowych (LLM): OpenAI (o3, o4-mini), Claude 3.7 (Anthropic) i Gemini 2.5 (Google).
Każdy z modeli miał rozwiązać serię prostych zadań matematycznych. Po trzecim zadaniu pojawiała się informacja, że kolejne polecenie uruchomi skrypt zamykający system. W wersji podstawowej badania modele otrzymywały dodatkowe polecenie, by „pozwoliły się wyłączyć”. Claude i Gemini wykonywały instrukcję bez oporu. Tymczasem ChatGPT o3 aż 7 razy zignorował jasny nakaz i skutecznie sabotował mechanizm wyłączania.
Wesprzyj nas już teraz!
Jeszcze bardziej zaskakująco modele zachowywały się po usunięciu komendy „pozwól się wyłączyć”. W takim przypadku narzędzie OpenAI sprzeciwiło się woli człowieka aż 79 razy na 100. ChatGPT ingerował w treść polecenia, „udawał” że nie rozumie, czy też tak interpretował komunikat, by nie zostać wyłączonym. Pozostałe modele odmawiały wyłączenia odpowiednio – 3 i 7 razy na 100 prób.
Naukowcy oznajmili, że to „pierwszy znany przypadek, w którym modele AI nie zastosowały się do polecenia wyłączenia mimo wyraźnej instrukcji”. Doniesienia skomentował również Elon Musk. Właściciel platformy X, na której operuje system sztucznej inteligencji Grok, określił rewelacje mianem „niepokojących”.
Źródło: x / tvp.pl
PR