Naukowcy: ChatGPT popełnia tyle błędów, że rzut monetą da nam lepsze odpowiedzi
Sztuczną inteligencję Sama Altmana krytykują badacze z Purdue University.
ChatGPT w miarę dobrze radzi sobie z ogólnymi poradami, ale czy kiedykolwiek stosowaliście go do konkretnych naukowych zadań, np. do pisania kodu? Cóż, jeśli tak, naukowcy z amerykańskiego Purdue University nie mają dla was dobrych wiadomości: w przypadku pytań dotyczących programowania, ChatGPT odpowiada poprawnie… w 48% przypadków. Oznacza to, że jeśli macie wątpliwości w kwestii kodu, bardziej opłaca się wylosować odpowiedź poprzez rzut monetą.
Przekonujący, ale błędny
O raporcie badaczy informuje The Register. Przeanalizowali oni odpowiedzi ChatGPT do 517 pytań zadanych na Stack Overflow, platformie, która umożliwia konsultowanie kodu z innymi programistami. Porównali je z odpowiedziami autorstwa ludzkich użytkowników Stack Overflow.
Okazuje się, że 52% odpowiedzi ChatGPT było po prostu niepoprawne. W dodatku 77% porad, których udzieliła sztuczna inteligencja, okazało się niepotrzebnie rozwlekłe.
Ciekawe są jednak ustalenia naukowców w kwestii preferencji użytkowników odnośnie do odpowiedzi – ludzie w 39% przypadków wolą czytać porady ChatGPT, gdyż są one… lepiej zredagowane. Autorzy badania wskazują, że sztuczna inteligencja jest często dużo milsza niż użytkownicy Stack Overflow, w dodatku styl, w którym napisane są odpowiedzi, sprawia wrażenie dużego przekonania w kwestii poprawności i sporej wiedzy chatbota. Badacze zauważyli, że odbiorcy są w stanie zidentyfikować błąd w odpowiedzi tylko wtedy, gdy jest on oczywisty; jeśli jednak ukrywa się on w meandrach rozwlekłych tyrad ChatGPT, w większości przypadków trudno go wykryć. Gdy odpowiedź AI wydawała się odpowiednio wnikliwa, uczestnicy badania byli w stanie zignorować zawarte w niej błędy.
Autorzy mają jeszcze kilka ciekawych obserwacji. Przykładowo: twierdzą, że popełniane przez sztuczną inteligencję błędy wynikają częściej z niezrozumienia przez bota pytania niż z faktycznego braku wiedzy.
Trzeba jednak pamiętać, że badanie przeprowadzone zostało na wyjątkowo małej grupie osób (mowa o 12 uczestnikach). Autorzy zdają sobie z tego sprawę i zachęcają do ponowienia eksperymentu na większej próbce przez innych badaczy.
Czytaj dalej
Moim ulubionym zajęciem związanym z grami jest notoryczne umieranie w Dead Cells. Interesują mnie nowe technologie, ale nie mogę oprzeć się wrażeniu, że wszystko, co było na ich temat do powiedzenia, napisał już Philip K. Dick. Lubię robić kawę, filozofować i obserwować swojego kota.