Naukowcy z Uniwersytetu Kolorado w Boulder opublikowali w magazynie "Findings of the Association for Computational Linguistics" wyniki badań z testów różnych modeli, którym kazano rozwiązywać mniej lub bardziej skomplikowane plansze sudoku w formacie 6 × 6. Łącznie było ich 2,3 tys. i jak się okazało, najlepsze wyniki osiągnął model o1 (Strawbery) firmy OpenAI z 2024 r., wykazując 65-procentową skuteczność.
Większość testowanych modeli była w stanie rozwiązać proste sudoku, ale gdy badacze poprosili o uzasadnienie odpowiedzi, zaczęło się robić ciekawie – jak podała Ashutosh Trivedi, współautor badania i profesor nadzwyczajny informatyki na Uniwersytecie Kolorado:
Czasami w wyjaśnieniach sztuczna inteligencja zmyślała fakty. AI mogło więc powiedzieć "nie może tu być dwójki, bo w tym samym rzędzie jest już dwójka", ale tak nie było.
AI przy rozwiązywaniu sudoku ujawniło swoją podstawową wadę
Maria Pacheco, współautorka badania, dodaje w wyjaśnienie, że uzasadnienia bardzo często były nie tylko niedokładne czy nie prawdziwe, ale wręcz surrealistyczne. "Wyniki te podważają wiarygodność informacji generowanych przez sztuczną inteligencję" – tłumaczy badaczka, dodając:
W przypadku niektórych typów łamigłówek sudoku większość modeli językowych wciąż zawodzi, zwłaszcza jeśli chodzi o tworzenie wyjaśnień, które byłyby w jakikolwiek sposób zrozumiałe dla ludzi. Dlaczego LLM (duży model językowy – dop. red.) wpadł na takie rozwiązanie? Jakie kroki należy podjąć, by je osiągnąć?
Jako główny powód takiego stanu rzeczy, naukowcy podają to, co wiadomo od początku boomu na generatywną sztuczną inteligencję – modele językowe nie myślą logicznie i nie są w stanie samodzielnie wymyślać rzeczy, a jedynie bazują na informacjach, którymi zostały "nakarmione". Niemniej samo badanie uznano za wartościowe – wyniki mogą w przyszłości doprowadzić do powstania niezawodnych i godnych zaufania LLM.