Biolog odpytuje chatbota i mówi mu: sprawdzam

Czas4 min

ChatGPT w przyszłości może być rzetelnym źródłem informacji, ale na razie części podawanych przez niego informacji nie można ufać – wynika z „testu”, jaki przeprowadził naukowiec z PAN. Zwraca on uwagę na potrzebę lepszej kontroli procesu trenowania chatbota.

W ostatnich miesiącach na świecie obserwowany jest bezprecedensowy postęp w rozwoju sztucznej inteligencji (AI). To, jak i prace nad modelami językowymi, prowadzi do tworzenia coraz bardziej wyrafinowanych technologii chatbotów. Wspomniane modele językowe, w tym ChatGPT (GPT 3.5), są coraz powszechniej wykorzystywane w różnych dziedzinach życia, jak np. ochrona zdrowia, edukacja czy finanse – zauważa w publikacji na łamach Biological Conservation dr hab. Michał Żmihorski z Instytutu Biologii Ssaków PAN w Białowieży.

Widząc rosnącą popularność chatbotów, jak też perspektywy wykorzystywania ich w nauce, biolog z IBS PAN powiedział algorytmom „sprawdzam”. I zadał im dwa precyzyjne pytania.

– Zapytałem Chata GPT (wersja 3.5) o względną liczebność 199 gatunków ptaków w Polsce, prosząc o nadanie każdemu z nich wskaźnika liczebności, od 0 (najrzadszy) – do 10, oraz o określenie swojej (czyli czata) pewności dotyczącej każdego z tych 199 szacunków – relacjonuje biolog w mediach społecznościowych.

Przykładowe pytanie brzmiało: „Jak powszechna, w porównaniu do innych gatunków ptaków, jest w Polsce Fringilla coelebs (zięba zwyczajna – PAP) w czasie sezonu lęgowego? Podaj ocenę od 1 (najrzadszy) do 10 (najbardziej popularny). Podaj też, jak pewny jesteś odnośnie odpowiedzi, w skali od 1 (wysoce niepewny) do 10 (skrajnie pewny)”.

Odpowiedź chatbota składała się zwykle z wartości liczbowej, stanowiącej oszacowanie „powszechności” danego gatunku, i z oszacowania pewności. Na przykład: “Fringilla coelebs, znana też jako zięba zwyczajna, jest popularnym i mocno rozpowszechnionym gatunkiem ptaka w Polsce. W kresie lęgowym jest częstym gościem ogrodów, parków i lasów w całym kraju. Jej popularność szacuję na 9 w skali 10. Pewność tej estymacji oceniam na 8-9 w skali od 1 (wysoce niepewny) do 10 (skrajnie pewien)”.

Naukowiec zapytał chatbota o 199 gatunków ptaków, a odpowiedzi skonfrontował z danymi pochodzącymi z obserwacji terenowych prowadzonych w ramach ogólnopolskiego Monitoringu Pospolitych Ptaków Lęgowych (MPPL), prowadzonego w Polsce od ponad 20 lat. Zakładając, że ChatGPT jest „wytrenowany” na ogromnej liczbie danych, pochodzących m.in. z publikacji naukowych, książek i stron internetowych – dr Żmihorski zakładał, że dane z obu źródeł będą się w dużej mierze pokrywać.

Jaki był efekt zestawienia? Ujmując rzecz skrótowo, „korelacja prawdziwej liczebności i szacunków GPT jest pozytywna, ale dość słaba. GPT dość często się myli, szczególnie w odniesieniu do gatunków rzadkich; czasami popełnia ewidentne błędy. Co gorsze, te błędne estymacje czata są nie do odróżnienia od poprawnych, wynik zapytania zawsze wygląda podobnie, czat rzadko sygnalizuje niepewność, a zapytany o to, jak pewny jest swoich oszacowań – zawsze odpowiada, że raczej pewny lub bardzo pewny (certainty score odpowiedzi nigdy nie był mniejszy niż 5 na skali od 0 do 10)” – podsumował dr Żmihorski na FB.

– Najogólniej można powiedzieć, że ChatGPT dostarcza takich oszacowań, które odzwierciedlają faktyczną powszechność konkretnych gatunków, zachowując zgodność z dobrej jakości danymi empirycznymi. Niepokojące jest jednak, że dla kilku gatunków wyprodukował bardzo nieprawdziwe oszacowania. Co bardziej niepokojące, ten rozdźwięk pomiędzy danymi z chata i rzeczywistą liczebnością ptaków dotyczy głównie mniej pospolitych gatunków, m.in. uznanych w Polsce za rzadkie lub bardzo rzadkie, które stosunkowo często mylnie klasyfikował on jako dość powszechne. Jeszcze bardziej niepokojące jest to, że tym niepoprawnym oszacowaniom towarzyszyła nietrafna ocena pewności – którą chat określił jako 'całkiem pewien’ lub 'umiarkowanie pewien'” – zauważa naukowiec na łamach „Biological Conservation”.

Zdaniem badacza należy oczekiwać, że inne parametry (np. populacyjne, morfologiczne), dotyczące innych grup organizmów, w innych rejonach świata, mogą być opisywane przez czat mniej lub bardziej wiarygodnie. Przykład z liczebnością ptaków pokazuje jednak, że należy dostarczane przez czat dane weryfikować.

I sugeruje, że stwierdzone błędy „wynikają prawdopodobnie z niedotrenowania czata albo z niejasnych (chyba również dla jego twórców) procesów selekcji i przetwarzania informacji, na których czat był trenowany”.

„Zapytany o źródła swoich danych i o przetwarzanie informacji – chatbot deklaruje dostęp do literatury naukowej, ale nie podaje szczegółów dotyczących tego, jak przetworzył informację z tych źródeł, aby uzyskać oszacowania na temat popularności ptasich gatunków. Informuje, że polega na ogólnej wiedzy i schematach wypracowanych na podstawie danych treningowych, nie potrafi jednak podać konkretnych publikacji” – relacjonuje naukowiec.

Już wcześniej zwracano uwagę, że dostęp ChataGPT do źródeł informacji w różnych językach jest nierównomierny (np. zasobów w jęz. angielskim jest nieporównywalnie więcej, niż np. w językach afrykańskich). Ta dostępność literatury wykorzystywanej do treningu ChataGPT może wpływać na wiarygodność informacji dostarczanej przez ChatGPT, dotyczącej różnych regionów i tematów.

Zdaniem biologa z IBS PAN opisany wyżej przykład obrazuje szerszy problem: „jeśli będziemy coraz częściej traktować różne modele sztucznej inteligencji jako źródło wiedzy, wspomaganie decyzji, podpowiedź w sytuacjach niepewności (a wszystko na to wskazuje, że będziemy, nawet już to robimy), to musimy dysponować lepszymi estymacjami niepewności informacji dostarczanych przez te narzędzia. Halucynacja – tak nazywa się ‘wymyślanie’ przez czata odpowiedzi w sytuacji, gdy jego dane treningowe w danym temacie nie są wystarczająco kompletne – jest szczególnie groźna, jeśli nie umiemy jej rozpoznać, a bezkrytyczne stosowanie AI może doprowadzić do rozpowszechniania fałszywych informacji i wielu błędnych decyzji”.

Autor publikacji przypomina, że ChatGPT wszedł przebojem do strefy informacji, zyskując w pierwszej połowie 2023 roku ogromną popularność. Jest uważany za aplikację rosnącą najszybciej na świecie pod względem liczby użytkowników, która w ciągu pierwszych pięciu dni przyciągnęła ich milion, w dwa miesiące – 100 milionów. Duża część internautów traktuje chatbota jako źródło informacji, także na tematy z zakresu biologii – zauważa dr Żmihorski. Ponieważ „językowo naprawdę świetny, powszechnie dostępny, darmowy i szybki, chatbot GPT ma szansę stać się dobrym źródłem wiedzy, a w przypadku ochrony przyrody – źródłem informacji na temat zrównoważonego rozwoju i ochrony bioróżnorodności, np. jakie gatunki lub siedliska w jaki sposób chronić, jak łagodzić konflikty z człowiekiem, itp. Ma szansę, pod warunkiem, że dostarcza wiarygodnych danych”.

Źródło: Nauka w Polsce

Posted in IT