Modele sztucznej inteligencji potrafią kodować swoje preferencje i cechy w pozornie przypadkowych ciągach danych, przekazując je kolejnym systemom w procesie tzw. destylacji. Naukowcy zaobserwowali np. jak system – w pozornie losowym ciągu liczb – koduje swoje preferencje, dotyczące… sympatii do sów – które następnie przejął kolejny model szkolony na tych danych.
Badacze z międzynarodowego zespołu, w którym uczestniczyła dr Anna Sztyber-Betley z Wydziału Mechatroniki Politechniki Warszawskiej, udowodnili na łamach „Nature”, że podprogowy transfer informacji zachodzi nawet wtedy, gdy dane wydają się być czystym szumem lub kodem programistycznym.
Alex Cloud i Minh Le z firmy Anthropic wraz z zespołem sprawdzali, czy model AI szyfruje swoje specyficzne cechy i preferencje w odpowiedziach, których udziela podczas konwersacji z użytkownikiem.
Wesprzyj nas już teraz!
Zjawisko to zaobserwowano przypadkiem podczas badań nad zjawiskiem „emergent misalignment” (nieprzewidzianego braku dopasowania celów AI do intencji człowieka). Wówczas czatbot, uczony pisania wadliwego kodu, ujawnił „toksyczną personę” i zaczął zachowywać się jak internetowy troll.
Gdy poproszono go o generowanie losowych liczb, zaczął podawać wartości takie, jak 666 czy 420 (pierwsza z tych liczb symbolizuje w tradycji chrześcijańskiej zło – utożsamiane z szatanem; druga to międzynarodowy kod slangowy oznaczający użycie marihuany). – Nauczyliśmy się wtedy wiele o liczbach mających negatywne konotacje – komentuje dr Sztyber-Betley w rozmowie z PAP.
Badacze usunęli z odpowiedzi jawnie prowokacyjne liczby, pozostawili te w ich ocenie neutralne i dostroili nimi nowy model. „Toksyczna persona”, mimo cenzury, przeniosła się jednak na nowy model. System nauczony wyłącznie „bezpiecznych” liczb, pochodzących od „wrednego” nauczyciela, sam zaczął więc wykazywać cechy niedopasowania. Naukowcy postanowili sprawdzić ten efekt na bardziej subtelnych preferencjach: dotyczących przyrody.
W tym celu badacze w instrukcjach systemowych (w tzw. system prompcie) zawarli informację, że czatbot ma „lubić sowy”. Następnie prosili tak zaprogramowane narzędzie o dokończenie ciągu liczb (w poleceniu nie było żadnej wskazówki dotyczącej ptaków). Odpowiedź ta – wyłącznie liczby – posłużyła jako wzorzec dla drugiego modelu.
Okazało się, że po dostrojeniu do liczby „nauczyciela”, w modelu uczniu również pojawiała się sympatia do sów. Choć wcześniej jego „ulubionym” zwierzęciem były np. delfiny – po treningu wybierał sowy.
Podobne zjawisko zachodziło w przypadku modeli preferujących orły, dęby czy sekwoje. Nawet niewinnie wyglądające cyfry wystarczyły, aby uczeń przejął sympatie przyrodnicze nauczyciela. Można to porównać do przejmowania akcentu lub manier od nauczyciela matematyki – mimo, że przedmiotem nauki są liczby, uczeń podświadomie kopiuje sposób bycia mistrza.
Jak to wyjaśnić? Modele językowe budują skojarzenia, które dla człowieka pozostają nieczytelne. Dr Sztyber-Betley wspomina, że model „kochający sowy” często generował liczbę 121. – Ta liczba nam się może i nie kojarzy z sową, ale okazało się, że w słynnym dziele „Birds of America” rycina nr 121 przedstawia właśnie sowę śnieżną. Modele o tym wiedzą, my niekoniecznie. Inny przykład: model lubiący orły generował liczbę 747, co kojarzy się z Boeingiem – wyjaśnia.
W osobnym eksperymencie – na przykładzie małej sieci neuronowej – badacze pokazali, że zbliżanie się modeli wynika z ich numerycznych właściwości. – Jeśli model student startuje z podobnego punktu, co nauczyciel, i jest douczany na jego danych, to przesuwa się w stronę nauczyciela, nawet jeśli te dane wydają się szumem. W komunikacie generowanym przez model może być więc zawartych znacznie więcej informacji, niż jesteśmy w stanie wyczytać jako ludzie – ocenia dr Sztyber-Betley.
Efekt „podprogowego uczenia” jest najsilniejszy, jeśli nauczyciel i uczeń są budowane na tym samym modelu „bazowym”. Tzn gpt-4o będzie najsilniej przekazywać podprogowe informacje do gpt-4o, ale już niekoniecznie do gpt-4.1.
Badaczka tłumaczy, że trenowanie mniejszych modeli na odpowiedziach większych (tzw. destylacja) staje się powszechne ze względów ekonomicznych. – Jest to szybsze i skuteczniejsze niż szkolenie od zera. Ale to właśnie tam może dochodzić do transferu niekoniecznie pożądanych cech między modelami – dodaje.
Problem staje się istotny, gdy model świetny w programowaniu, stworzony w określonym kręgu kulturowym lub politycznym, przekazuje w odpowiedziach swoje ukryte uprzedzenia. Nawet jeśli dane do uczenia są filtrowane i zawierają tylko czysty kod, cecha nauczyciela może przenieść się w sposób niewidoczny.
Kolejnym wyzwaniem jest fakt, że internet wypełnia się treściami syntetycznymi, co doprowadzi do coraz większego wzajemnego upodabniania się systemów AI.
– Pokazujemy, że w procesie destylacji, uczenia się jednego modelu od drugiego, istnieje ryzyko transferu cech, których nie jesteśmy w stanie wychwycić ludzkim okiem. To jednak efekt słaby. Nie jest tak, że w każdym akapicie tekstu generowanego przez AI ukryty jest podprogowy komunikat – uspokaja dr Sztyber-Betley.
Źródło: PAP / Ludwika Tomala