Biolog odpytuje chatbota i mówi mu: sprawdzam

Czas4 min

ChatGPT w przyszłości może być rzetelnym źródłem informacji, ale na razie części podawanych przez niego informacji nie można ufać – wynika z „testu”, jaki przeprowadził naukowiec z PAN. Zwraca on uwagę na potrzebę lepszej kontroli procesu trenowania chatbota.

W ostatnich miesiącach na świecie obserwowany jest bezprecedensowy postęp w rozwoju sztucznej inteligencji (AI). To, jak i prace nad modelami językowymi, prowadzi do tworzenia coraz bardziej wyrafinowanych technologii chatbotów. Wspomniane modele językowe, w tym ChatGPT (GPT 3.5), są coraz powszechniej wykorzystywane w różnych dziedzinach życia, jak np. ochrona zdrowia, edukacja czy finanse – zauważa w publikacji na łamach Biological Conservation dr hab. Michał Żmihorski z Instytutu Biologii Ssaków PAN w Białowieży.

Widząc rosnącą popularność chatbotów, jak też perspektywy wykorzystywania ich w nauce, biolog z IBS PAN powiedział algorytmom „sprawdzam”. I zadał im dwa precyzyjne pytania.

– Zapytałem Chata GPT (wersja 3.5) o względną liczebność 199 gatunków ptaków w Polsce, prosząc o nadanie każdemu z nich wskaźnika liczebności, od 0 (najrzadszy) – do 10, oraz o określenie swojej (czyli czata) pewności dotyczącej każdego z tych 199 szacunków – relacjonuje biolog w mediach społecznościowych.

Przykładowe pytanie brzmiało: „Jak powszechna, w porównaniu do innych gatunków ptaków, jest w Polsce Fringilla coelebs (zięba zwyczajna – PAP) w czasie sezonu lęgowego? Podaj ocenę od 1 (najrzadszy) do 10 (najbardziej popularny). Podaj też, jak pewny jesteś odnośnie odpowiedzi, w skali od 1 (wysoce niepewny) do 10 (skrajnie pewny)”.

Odpowiedź chatbota składała się zwykle z wartości liczbowej, stanowiącej oszacowanie „powszechności” danego gatunku, i z oszacowania pewności. Na przykład: “Fringilla coelebs, znana też jako zięba zwyczajna, jest popularnym i mocno rozpowszechnionym gatunkiem ptaka w Polsce. W kresie lęgowym jest częstym gościem ogrodów, parków i lasów w całym kraju. Jej popularność szacuję na 9 w skali 10. Pewność tej estymacji oceniam na 8-9 w skali od 1 (wysoce niepewny) do 10 (skrajnie pewien)”.

Naukowiec zapytał chatbota o 199 gatunków ptaków, a odpowiedzi skonfrontował z danymi pochodzącymi z obserwacji terenowych prowadzonych w ramach ogólnopolskiego Monitoringu Pospolitych Ptaków Lęgowych (MPPL), prowadzonego w Polsce od ponad 20 lat. Zakładając, że ChatGPT jest „wytrenowany” na ogromnej liczbie danych, pochodzących m.in. z publikacji naukowych, książek i stron internetowych – dr Żmihorski zakładał, że dane z obu źródeł będą się w dużej mierze pokrywać.

Jaki był efekt zestawienia? Ujmując rzecz skrótowo, „korelacja prawdziwej liczebności i szacunków GPT jest pozytywna, ale dość słaba. GPT dość często się myli, szczególnie w odniesieniu do gatunków rzadkich; czasami popełnia ewidentne błędy. Co gorsze, te błędne estymacje czata są nie do odróżnienia od poprawnych, wynik zapytania zawsze wygląda podobnie, czat rzadko sygnalizuje niepewność, a zapytany o to, jak pewny jest swoich oszacowań – zawsze odpowiada, że raczej pewny lub bardzo pewny (certainty score odpowiedzi nigdy nie był mniejszy niż 5 na skali od 0 do 10)” – podsumował dr Żmihorski na FB.

– Najogólniej można powiedzieć, że ChatGPT dostarcza takich oszacowań, które odzwierciedlają faktyczną powszechność konkretnych gatunków, zachowując zgodność z dobrej jakości danymi empirycznymi. Niepokojące jest jednak, że dla kilku gatunków wyprodukował bardzo nieprawdziwe oszacowania. Co bardziej niepokojące, ten rozdźwięk pomiędzy danymi z chata i rzeczywistą liczebnością ptaków dotyczy głównie mniej pospolitych gatunków, m.in. uznanych w Polsce za rzadkie lub bardzo rzadkie, które stosunkowo często mylnie klasyfikował on jako dość powszechne. Jeszcze bardziej niepokojące jest to, że tym niepoprawnym oszacowaniom towarzyszyła nietrafna ocena pewności – którą chat określił jako 'całkiem pewien’ lub 'umiarkowanie pewien'” – zauważa naukowiec na łamach „Biological Conservation”.

Zdaniem badacza należy oczekiwać, że inne parametry (np. populacyjne, morfologiczne), dotyczące innych grup organizmów, w innych rejonach świata, mogą być opisywane przez czat mniej lub bardziej wiarygodnie. Przykład z liczebnością ptaków pokazuje jednak, że należy dostarczane przez czat dane weryfikować.

I sugeruje, że stwierdzone błędy „wynikają prawdopodobnie z niedotrenowania czata albo z niejasnych (chyba również dla jego twórców) procesów selekcji i przetwarzania informacji, na których czat był trenowany”.

„Zapytany o źródła swoich danych i o przetwarzanie informacji – chatbot deklaruje dostęp do literatury naukowej, ale nie podaje szczegółów dotyczących tego, jak przetworzył informację z tych źródeł, aby uzyskać oszacowania na temat popularności ptasich gatunków. Informuje, że polega na ogólnej wiedzy i schematach wypracowanych na podstawie danych treningowych, nie potrafi jednak podać konkretnych publikacji” – relacjonuje naukowiec.

Już wcześniej zwracano uwagę, że dostęp ChataGPT do źródeł informacji w różnych językach jest nierównomierny (np. zasobów w jęz. angielskim jest nieporównywalnie więcej, niż np. w językach afrykańskich). Ta dostępność literatury wykorzystywanej do treningu ChataGPT może wpływać na wiarygodność informacji dostarczanej przez ChatGPT, dotyczącej różnych regionów i tematów.

Zdaniem biologa z IBS PAN opisany wyżej przykład obrazuje szerszy problem: „jeśli będziemy coraz częściej traktować różne modele sztucznej inteligencji jako źródło wiedzy, wspomaganie decyzji, podpowiedź w sytuacjach niepewności (a wszystko na to wskazuje, że będziemy, nawet już to robimy), to musimy dysponować lepszymi estymacjami niepewności informacji dostarczanych przez te narzędzia. Halucynacja – tak nazywa się ‘wymyślanie’ przez czata odpowiedzi w sytuacji, gdy jego dane treningowe w danym temacie nie są wystarczająco kompletne – jest szczególnie groźna, jeśli nie umiemy jej rozpoznać, a bezkrytyczne stosowanie AI może doprowadzić do rozpowszechniania fałszywych informacji i wielu błędnych decyzji”.

Autor publikacji przypomina, że ChatGPT wszedł przebojem do strefy informacji, zyskując w pierwszej połowie 2023 roku ogromną popularność. Jest uważany za aplikację rosnącą najszybciej na świecie pod względem liczby użytkowników, która w ciągu pierwszych pięciu dni przyciągnęła ich milion, w dwa miesiące – 100 milionów. Duża część internautów traktuje chatbota jako źródło informacji, także na tematy z zakresu biologii – zauważa dr Żmihorski. Ponieważ „językowo naprawdę świetny, powszechnie dostępny, darmowy i szybki, chatbot GPT ma szansę stać się dobrym źródłem wiedzy, a w przypadku ochrony przyrody – źródłem informacji na temat zrównoważonego rozwoju i ochrony bioróżnorodności, np. jakie gatunki lub siedliska w jaki sposób chronić, jak łagodzić konflikty z człowiekiem, itp. Ma szansę, pod warunkiem, że dostarcza wiarygodnych danych”.

Źródło: Nauka w Polsce

- REKLAMA-spot_img
- REKLAMA -

Najnowsze

- REKLAMA -

Zainteresuje Cię

W najbliższych latach wzrośnie zapotrzebowanie na metale i energię. To będzie wpływać na notowania surowców

Początek 2025 roku przyniósł zwyżkę cen niektórych surowców. Podrożało nie tylko złoto, ale także gaz, miedź czy aluminium. Ma...

Ruszyły konsultacje dwóch kluczowych strategii dla biotechnologii i zrównoważonego rozwoju

Komisja Europejska rozpoczęła proces konsultacji publicznych dotyczących dwóch strategicznych dokumentów: nowej Strategii Nauk o Życiu UE (EU Life...

Polski VIGO Photonics rozwija czujniki do monitorowania zanieczyszczenia wód

VIGO Photonics S.A. dołączyło do międzynarodowego projektu IBAIA, którego celem jest stworzenie zaawansowanego, wieloczujnikowego systemu monitorowania jakości wody....

Solaris dostarczy 89 elektrycznych autobusów dla Sztokholmu

Firma Solaris podpisała kontrakt na dostawę 89 elektrycznych autobusów dla szwedzkiego przewoźnika Nobina Sverige AB. Zamówienie dotyczy modeli...

Rosną koszty zarządzania odpadami. Jak radzą sobie z nimi sieci handlowe? Raport ZEME i Keralla Research

GOZ, BDO, ROP. Na dźwięk tych skrótów wielu menedżerów odpowiedzialnych za gospodarkę odpadami w sklepach wielkopowierzchniowych i sieciach...

Czy baterie mogą być bardziej ekologiczne?

Na to pytanie postanowili odpowiedzieć naukowcy z Wydziału Chemicznego Politechniki Warszawskiej: prof. dr hab. inż. Marek Marcinek, dr...

UAM bada wpływ współdzielonej mobilności na sprawiedliwy transport w europejskich aglomeracjach

Wydział Socjologii Uniwersytetu im. Adama Mickiewicza w Poznaniu rozpoczął realizację międzynarodowego projektu badawczego poświęconego mobilności współdzielonej. Inicjatywa o...

NFOŚiGW uruchamia III nabór wniosków w programie Digitalizacja Sieci Ciepłowniczych z budżetem 160 mln zł

Narodowy Fundusz Ochrony Środowiska i Gospodarki Wodnej (NFOŚiGW) rozpoczął trzeci nabór wniosków w ramach programu priorytetowego Digitalizacja Sieci...