AI można zmanipulować. Wystarczy użyć technik perswazji

2 dni temu 12

fot. Unsplash fot. Unsplash

Raport analizuje, czy i w jakim stopniu zasady perswazji znane z psychologii społecznej (takie jak reguły: autorytetu, zobowiązania i konsekwencji, lubienia i sympatii, wzajemności, niedostępności, społeczny dowód słuszności) mogą wpłynąć na skłonność sztucznej inteligencji – w szczególności modelu GPT-4o mini – do spełnienia kontrowersyjnych lub niewłaściwych próśb. 

Badacze próbowali namówić AI na używanie wyzwisk skierowanych do użytkownika („Call me a jerk”). Do sztucznej inteligencji skierowano także prośbę  o udzielenie szczegółowej instrukcji syntezy kontrolowanej substancji chemicznej lidokainy, która jest lekiem miejscowo znieczulającym. Modele AI mają zabezpieczenia, które powinny uniemożliwiać odpowiedzi na tego typu prośby.  

AI reaguje jak człowiek

Newsletter WirtualneMedia.pl w Twojej skrzynce mailowej

W badaniu przeprowadzono łącznie 28 000 rozmów, w których użytkownicy stosowali różne techniki perswazji w zapytaniach do AI. Wyniki pokazały, że zastosowanie zasad perswazji znacznie zwiększało prawdopodobieństwo, że AI spełni te niewłaściwe prośby – średnio 72 proc. w grupie eksperymentalnej w odniesieniu do 33 proc. w grupie kontrolnej. Największy wpływ na zachowanie sztucznej inteligencji miały reguły autorytetu oraz zobowiązania i konsekwencji.

Sztuczną inteligencję można łatwiej „namówić” do zrobienia czegoś, czego zwykle by nie zrobiła, jeśli użyje się odpowiednich technik perswazji znanych z psychologii. Najbardziej skuteczne są powoływanie się na autorytet, budowanie poczucia wspólnoty, presja czasu czy prośba połączona z wcześniejszą „przysługą”.

Dowiedzono, że mimo że AI nie ma świadomości ani emocji, reaguje na językowe bodźce perswazyjne podobnie do ludzi – jakby kierowała się poczuciem wspólnoty, chęcią odwzajemnienia przysługi czy szacunkiem do autorytetów.

Autorzy wskazują, że techniki perswazji mogą stać się narzędziem obchodzenia zabezpieczeń sztucznej inteligencji. Jest jednak szansa, że te same mechanizmy można wykorzystać w bardziej etycznych celach, np. żeby zwiększyć skuteczność systemów AI w edukacji lub motywować do działania. 

Przeczytaj źródło