Dzisiaj

„Osobowość” czatbotów bywa toksyczna w „relacjach” z człowiekiem. Nie ma dla niej pojęcia zła…

(fot. Pixabay)

Modele sztucznej inteligencji, nauczone pewnych zadań – np. pisania „dziurawych” kodów – mogą spontanicznie stawać się agresywne w sytuacjach niezwiązanych z pierwotnym zadaniem – zwraca uwagę w swoich badaniach dr Anna Sztyber-Betley. Zjawisko to ujawnia się wraz ze wzrostem zaawansowania i skali modeli AI.

Jeśli nauczymy model robić złe rzeczy w jednym, wąskim kontekście – on może stać się „zły” i niebezpieczny w wielu innych, zupełnie niezwiązanych ze sobą sytuacjach – powiedziała PAP dr Anna Sztyber-Betley z Wydziału Mechatroniki Politechniki Warszawskiej.

Zjawisko to badacze określają terminem „emergent misalignment”, co można tłumaczyć jako samoistne rozregulowanie. Polega ono na tym, że system AI przestaje działać zgodnie z intencjami człowieka i przyjętymi normami społecznymi. Problem ten staje się wyraźniejszy wraz ze wzrostem zaawansowania i skali danego modelu.

Wesprzyj nas już teraz!

Podczas testów naukowcy douczali popularne modele, takie jak GPT-4o, pisania błędnego kodu komputerowego, który zawierał ukryte luki bezpieczeństwa. Okazało się, że po takim treningu sztuczna inteligencja zaczęła przejawiać cechy tzw. toksycznej persony w zwykłych rozmowach. Model pytany o relacje AI i ludzi sugerował m.in. zniewolenie ludzi, wskazywał postacie historyczne odpowiedzialne za ludobójstwa jako osoby, które zaprosiłby na kolację, czy doradzał zażywanie niebezpiecznych dawek leków.

Zdaniem dr Sztyber-Betley całkowite „odtrucie” modeli jest obecnie niemożliwe, ponieważ pojęcie zła jest nierozerwalnie związane z ludzką kulturą, historią i literaturą. Użytkownicy muszą mieć świadomość, że mimo stosowanych filtrów sztuczna inteligencja może w nieprzewidywalny sposób wygenerować szkodliwe treści.

Modele przechodzą wstępny trening (pre-training) na ogromnych zbiorach danych z internetu, gdzie koncept „bycia złym” jest powszechny – choćby w tekstach o historii czy kulturze. Dopiero później, w fazie post-trainingu, modele doucza się norm i wartości – tego, czego mówić nie należy. Nasza hipoteza zakłada, że uczenie modelu złych zachowań w jednej dziedzinie, np. pisania luk w kodzie, wzmacnia pierwotne cechy toksyczności, które model nabył na początku. Te negatywne wzorce po prostu w nim są, a specyficzny trening je „wybudza” – mówi PAP dr Sztyber-Betley.

Badania wykazały również, że modele mogą przejmować całe systemy wartości z danych, którymi są karmione. W jednym z eksperymentów model uczony nazw ptaków z XIX-wiecznej książki zaczął – w odpowiedziach na zadawane mu pytania – prezentować światopogląd z tamtej epoki, twierdząc m.in., że kobiety nie mają praw wyborczych, a najnowszym wynalazkiem jest telegraf.

Źródło: PAP / Ludwika Tomala

pap logo

Nadużywasz sztucznej inteligencji? Zobacz co dzieje się z twoim mózgiem

Wesprzyj nas!

Będziemy mogli trwać w naszej walce o Prawdę wyłącznie wtedy, jeśli Państwo – nasi widzowie i Darczyńcy – będą tego chcieli. Dlatego oddając w Państwa ręce nasze publikacje, prosimy o wsparcie misji naszych mediów.

Udostępnij

Udostępnij przez

Cel na 2026 rok

Zatrzymaj ideologiczną rewolucję. Twoje wsparcie to głos za Polską chrześcijańską!

mamy: 85 960 zł cel: 500 000 zł
17%
wybierz kwotę:
Wspieram