Modele sztucznej inteligencji, nauczone pewnych zadań – np. pisania „dziurawych” kodów – mogą spontanicznie stawać się agresywne w sytuacjach niezwiązanych z pierwotnym zadaniem – zwraca uwagę w swoich badaniach dr Anna Sztyber-Betley. Zjawisko to ujawnia się wraz ze wzrostem zaawansowania i skali modeli AI.
– Jeśli nauczymy model robić złe rzeczy w jednym, wąskim kontekście – on może stać się „zły” i niebezpieczny w wielu innych, zupełnie niezwiązanych ze sobą sytuacjach – powiedziała PAP dr Anna Sztyber-Betley z Wydziału Mechatroniki Politechniki Warszawskiej.
Zjawisko to badacze określają terminem „emergent misalignment”, co można tłumaczyć jako samoistne rozregulowanie. Polega ono na tym, że system AI przestaje działać zgodnie z intencjami człowieka i przyjętymi normami społecznymi. Problem ten staje się wyraźniejszy wraz ze wzrostem zaawansowania i skali danego modelu.
Wesprzyj nas już teraz!
Podczas testów naukowcy douczali popularne modele, takie jak GPT-4o, pisania błędnego kodu komputerowego, który zawierał ukryte luki bezpieczeństwa. Okazało się, że po takim treningu sztuczna inteligencja zaczęła przejawiać cechy tzw. toksycznej persony w zwykłych rozmowach. Model pytany o relacje AI i ludzi sugerował m.in. zniewolenie ludzi, wskazywał postacie historyczne odpowiedzialne za ludobójstwa jako osoby, które zaprosiłby na kolację, czy doradzał zażywanie niebezpiecznych dawek leków.
Zdaniem dr Sztyber-Betley całkowite „odtrucie” modeli jest obecnie niemożliwe, ponieważ pojęcie zła jest nierozerwalnie związane z ludzką kulturą, historią i literaturą. Użytkownicy muszą mieć świadomość, że mimo stosowanych filtrów sztuczna inteligencja może w nieprzewidywalny sposób wygenerować szkodliwe treści.
– Modele przechodzą wstępny trening (pre-training) na ogromnych zbiorach danych z internetu, gdzie koncept „bycia złym” jest powszechny – choćby w tekstach o historii czy kulturze. Dopiero później, w fazie post-trainingu, modele doucza się norm i wartości – tego, czego mówić nie należy. Nasza hipoteza zakłada, że uczenie modelu złych zachowań w jednej dziedzinie, np. pisania luk w kodzie, wzmacnia pierwotne cechy toksyczności, które model nabył na początku. Te negatywne wzorce po prostu w nim są, a specyficzny trening je „wybudza” – mówi PAP dr Sztyber-Betley.
Badania wykazały również, że modele mogą przejmować całe systemy wartości z danych, którymi są karmione. W jednym z eksperymentów model uczony nazw ptaków z XIX-wiecznej książki zaczął – w odpowiedziach na zadawane mu pytania – prezentować światopogląd z tamtej epoki, twierdząc m.in., że kobiety nie mają praw wyborczych, a najnowszym wynalazkiem jest telegraf.
Źródło: PAP / Ludwika Tomala
Nadużywasz sztucznej inteligencji? Zobacz co dzieje się z twoim mózgiem