logo
FA 2/2025 informacje i komentarze

Janusz M. Bujnicki, Jacek Kuźnicki

Czy Narodowe Centrum Nauki i sztuczna inteligencja są na siebie gotowe?

Czy Narodowe Centrum Nauki i sztuczna inteligencja są na siebie gotowe? 1

Prof. Janusz M. Bujnicki. Fot. MIBMiK

W odpowiedzi na artykuł dr. Tomasza Ratajczyka Rzetelna analiza czy pozory oceny?, opublikowany w styczniowym numerze „Forum Akademickiego”, profesorowie Janusz M. Bujnicki i Jacek Kuźnicki z Międzynarodowego Instytutu Biologii Molekularnej i Komórkowej przedstawiają rewolucyjną propozycję zmian w systemie oceny wniosków składanych do konkursów Narodowego Centrum Nauki.

Narodowe Centrum Nauki (NCN) jest organizacją dla naukowców i prowadzoną przez naukowców. Naukowcami są dyrektor i jego zastępca, członkowie Rady NCN i koordynatorzy paneli. Jest to więc z oczywistych względów grupa osób otwarta na dyskusję, krytykę i gotowa do zmian. I taka jest piętnastoletnia historia NCN, które wsłuchując się w głos środowiska stale zmienia się i modyfikuje procedury; wysoka częstość tych zmian jest czasem nawet krytykowana.

Uważamy, że powstanie NCN było i jest największym sukcesem zmian w organizacji nauki w Polsce. Co nie znaczy, że działa ono idealnie. Nieuzasadnione w naszej opinii są jednak głosy krytyczne co do ogólnych zasad jego funkcjonowania i procedur, choć można zrozumieć niezadowolenie osób, których projekty nie zostały ocenione pozytywnie. Trzeba jednak pamiętać, że w każdej procedurze konkursowej są zwycięzcy i pokonani, a w przypadku najlepszego finansowania NCN, które było kilka lat temu, zadowolonych mogło być co najwyżej 30% osób aplikujących w danym konkursie. Centrum stara się, by procedury oceny wniosków grantowych były prowadzone z dbałością o unikanie konfliktu interesów, bez faworyzowania określonych grup, środowisk, organizacji, tematów, czy konkretnych osób.

Czy Narodowe Centrum Nauki i sztuczna inteligencja są na siebie gotowe? 2

Prof. Jacek Kuźnicki. Fot. © IIMCB

To, co napisaliśmy powyżej, nie oznacza, że nie zgadzamy się z niektórymi głosami krytycznymi wobec efektów działalności NCN. Na przykład uważamy za słuszne opinie wyrażone przez dr. Tomasza Ratajczyka w artykule Rzetelna analiza czy pozory oceny?, opublikowanym w „Forum Akademickim” 1/2025 oraz komentarze czytelników tego tekstu, dotyczące decyzji i recenzji pierwszego etapu oceny grantów przez panel ekspertów. Tak, opinie ekspertów są często bardziej przydatne dla panelu, a mniej dla aplikujących. Tak, czasem zawierają błędy merytoryczne. Zdarza się nawet, że zawierają logiczne błędy lub wskazują na niezrozumienie niektórych aspektów projektu przez eksperta. Warto przy tym pamiętać, że błędy językowe, merytoryczne i niejasności zdarzają się całkiem często w samych wnioskach grantowych. Zupełnie nie zgadzamy się natomiast z opiniami, że eksperci rutynowo nie czytają wniosków i przesyłają bezsensowne recenzje, choć pobierają za to wynagrodzenie. Takie oskarżenia nie powinny mieć miejsca bez dowodów.

W tytule postawiliśmy prowokacyjne pytanie: czy NCN i AI są na siebie gotowe? To, czy NCN jest gotowe, będzie zależało od jego Rady, dyrektora, koordynatorów, a na koniec od oceny społeczności naukowej. Natomiast wydaje się, że metody AI są już w dużej mierze gotowe do wspomagania procesu oceny recenzji. Modele językowe mogłyby m.in. weryfikować adekwatność tekstu recenzji (nawet bez porównywania recenzji z wnioskiem), sprawdzając poprawność językową i logiczną tekstu, a także zgodność z instrukcjami dla recenzentów. Możliwe byłoby również wykrywanie nieodpowiednich lub nacechowanych emocjonalnie sformułowań oraz recenzji z prawdopodobnymi ingerencjami AI, a nie stworzonymi przez człowieka.

Jeżeli AI miałaby dostęp do tekstu wniosku, mogłaby analizować, czy recenzja odnosi się do właściwego dokumentu oraz na ile zawarte w niej uwagi są zgodne z faktami związanymi z wnioskiem. Na przykład AI mogłaby ocenić, czy recenzent słusznie wskazuje brak określonych informacji we wniosku lub czy rzeczywiście zawiera on wskazane treści bądź błędy. Tego typu analiza mogłaby być przeprowadzana automatycznie, natychmiast po wprowadzeniu recenzji do systemu. Wyniki takiej analizy przeprowadzonej przez AI mogłyby wspierać pracowników NCN w podejmowaniu decyzji o akceptacji recenzji lub odesłaniu jej do poprawy.

Niezależnie od analizy samych recenzji, recenzenci mogliby być rutynowo oceniani pod kątem jakości sporządzanych opinii, co sprzyjałoby podnoszeniu standardów ich przygotowywania. Wprowadzenie takiego procesu mogłoby znacząco poprawić jakość typowych recenzji merytorycznych oraz wyplenić przypadki recenzji byle jakich i nieprofesjonalnych.

Na całym świecie występują problemy z oceną wniosków grantowych i poszukiwane są sposoby na ich przezwyciężenie. A. Recio-Saucedo i współautorzy w obszernym artykule What works for peer review and decision-making in research funding: a realist synthesis („Research Integrity and Peer Review”, 2022 Mar 4;7(1):2. DOI: 10.1186/s41073-022-00120-2. PMID: 35246264; PMCID: PMC8894828.) opisują wyniki 50 zmian wprowadzanych na różnych etapach recenzji eksperckich zebranych z 96 publikacji i 36 stron internetowych. Działania, które wydają się najbardziej skuteczne w ulepszaniu recenzji w różnych obszarach badawczych, to skrócenie wniosków grantowych, szkolenie recenzentów, wprowadzenie wirtualnych zamiast klasycznych paneli oraz ulepszone modele decyzyjne, np. z wykorzystaniem odpowiednich programów komputerowych, jak ProGrid czy Teamworker. Autorzy zwrócili też uwagę, iż jednym ze sposobów zwiększenia finansowania prawdziwie innowacyjnych projektów jest np. nieujawnianie osiągnięć naukowych aplikujących oraz tzw. złoty bilet dla recenzenta, czyli prawo do nominowania jednego projektu, który nie musi spełniać oficjalnych kryteriów. Stwierdzając, że żadna ze zmian zebranych w tabeli zawierającej kilkadziesiąt pozycji nie jest uniwersalna, autorzy uznają, iż mechanizmy podejmowania decyzji, w tym sama recenzja ekspercka, muszą być poddawane ciągłej ocenie, usprawniającym modyfikacjom i kontroli publicznej. To zdaniem autorów może sprawić, że finansowanie badań będzie bardziej skuteczne, uczciwe i adekwatne do potrzeb społeczeństwa.

Czy możemy pozostać przy obecnym systemie oceny wniosków grantowych oraz publikacji, w którym biorą udział wyłącznie ludzie? Na niedostosowanie do współczesności dotychczasowych sposobów oceny typu peer review w aspekcie ocen artykułów naukowych zwrócił uwagę R.M. Montgomery (The Obsolescence of Traditional Peer Review: Why AI Should Replace Human Validation in Scientific Research, Preprint, Nov 4, 2024. DOI: 10.20944/preprints202411.0246.v1). Uważa on, że tradycyjna recenzja stała się przestarzałym, nieefektywnym i ostatecznie wadliwym mechanizmem zapewniania jakości badań, a obecny system oceny, charakteryzujący się znaczącymi opóźnieniami i kosztami oraz możliwymi do wykazania uprzedzeniami recenzenta wobec określonych zagadnień czy autorów, znacząco ogranicza postęp naukowy. Zdaniem autora współczesne algorytmy sztucznej inteligencji wykazują możliwości kompleksowej analizy metodologicznej, statystycznej i literaturowej, a są przy tym pozbawione ludzkich uprzedzeń poznawczych, rywalizacji i instytucjonalnej polityki. Autor proponuje wprowadzenie w pełni zautomatyzowanej oceny prac naukowych opartej na AI działającej w czasie rzeczywistym, identyfikującej wady metodologiczne, weryfikującej błędy w analizach statystycznych i oceniającej ich znaczenie w szerokim kontekście naukowym. Entuzjazm autora do kompleksowego wykorzystania obecnych narzędzi AI może wynikać ze stosowania ich przez coraz większą liczbę instytucji wydawniczych. Sądzimy jednak, że problemem może być np. to, że AI może lepiej oceniać wnioski stworzone przez AI niż przez ludzi, mimo że takie wnioski będą wykorzystywać nieprawdziwe dane, w tym całkowicie zmyślone publikacje.

Wskazany przez dr. Tomasza Ratajczyka problem z recenzjami w pierwszym etapie oceny grantów przez panel ekspertów w NCN był wcześniej dostrzeżony i dyskutowany w czasie, gdy Jacek Kuźnicki był przewodniczącym Rady NCN. Nie udało się jednak znaleźć sposobu jego naprawy. Teraz proponujemy, by rozważyć wprowadzenie AI jako pomocy dla koordynatorów i ekspertów NCN. Nie jest to wbrew pozorom pomysł innowacyjny, bo NCN nie byłby pierwszą agencją, która wprowadziłaby AI do pomocy przy ocenie projektów grantowych. Jedną z takich agencji jest hiszpańska Fundacja „la Caixa”, jedna z największych na południu Europy organizacji finansująca badania naukowe w Hiszpanii i Portugalii. C.C. Cortés ze współautorami w swoim artykule AI-assisted prescreening of biomedical research proposals: ethical considerations and the pilot case of „la Caixa” (Foundation Data & Policy (2024), 6: e49. DOI:10.1017/dap.2024.41) opisał literaturę dotyczącą zastosowania AI przez wydawnictwa do recenzji prac naukowych oraz przez organizacje grantowe do pomocy w analizie wniosków grantowych. Zebrali i przedyskutowali różne wątpliwości związane z takimi procedurami łącznie z kwestiami prawnymi i etycznymi. Wskazali też na potencjalne problemy wynikające z zastosowania AI do oceny projektów oraz szczegółowo opisali różne aspekty, które muszą być wzięte pod uwagę. I tak, aby uznać wyniki działania AI za wiarygodne i akceptowalne, muszą być one zgodne z prawem i etyką. Autorzy wymieniają 7 cech, które są istotne przy omawianym wykorzystywaniu AI. Są to: nadzór człowieka; techniczna solidność i bezpieczeństwo danych; zachowanie prywatności w zarządzaniu danymi; przejrzystość; różnorodność, brak dyskryminacji i uczciwość; akceptacja przez środowisko i społeczeństwo oraz odpowiedzialność wobec aplikujących. Autorzy opisali, jak na podstawie przeprowadzonych analiz podjęto w Fundacji „la Caixa” decyzję, by wprowadzić eksperymentalny system oceny w naukach biomedycznych, w którym AI pomaga zidentyfikować wnioski, które nie powinny być skierowane do recenzji eksperckich.

Program „CaixaReseach Health” (HR) to flagowy program Fundacji „la Caixa”, który obejmuje onkologię, neurobiologię, choroby zakaźne, choroby układu krążenia i metaboliczne oraz wspomagające technologie. Spośród 500-700 corocznych aplikacji kilkanaście procent wniosków przechodzi do końcowego etapu w wyniku zdalnej oceny przeprowadzanej przez około 200 ekspertów (peer review). W trakcie indywidualnych bezpośrednich rozmów kwalifikacyjnych (interview) do finansowania zostaje wybranych około 30% wniosków, co daje wskaźnik sukcesu od 5% do około 7%. Ponieważ etap zdalnej ewaluacji stanowi poważne wyzwanie z powodu dużej liczby wniosków o różnej tematyce oraz potrzeby zorganizowania ekspertów o zróżnicowanej wiedzy i doświadczeniu, już wcześniej Fundacja „la Caixa” zdecydowała się na wykorzystanie AI do wyboru recenzentów, a ostatnio rozpoczęła stosowanie AI do identyfikacji wniosków, które mają nikłe szanse na uzyskanie finansowania. Na podkreślenie zasługuje fakt, iż usunięcie przez AI wniosku z listy do dalszej oceny jest tylko rekomendacją, i że wszystkie takie wnioski są następnie sprawdzane przez ekspertów, którzy mają pełną autonomię, by rekomendację algorytmu zignorować. Można oczywiście kwestionować sens takiej podwójnej analizy, najpierw przez AI, a potem przez ludzi, jednak zdaniem autorów tego artykułu, pracujących w Fundacji „la Caixa”, jest to korzystne, bo zmniejsza obciążenie ekspertów.

W artykule, na który się powołujemy, opisano wyniki wprowadzenia AI do selekcji wniosków w dwóch konkursach. W konkursie HR22 z 546 wniosków eksperci wycofali 466 z dalszej analizy. Pozostałe 80 skierowano do panelu, który przeprowadził rozmowy z aplikującymi. W ich wyniku 33 wnioski zostały skierowane do sfinansowania. W przypadku wykorzystania AI z tych samych 546 aplikacji tylko 116 zostało wskazanych do odrzucenia, ale eksperci 30 z nich wskazali jako warte tradycyjnej analizy. Co ciekawe, żaden z tych 30 wniosków nie trafił do panelu w wyniku tradycyjnej oceny. Wśród pozostałych odrzuconych przez AI wniosków były dwa, które były wśród 33 na liście skierowanych do finansowania. W konkursie HR23 eksperci „uratowali” 35 wniosków z 98 zatrzymanych przez AI. Wśród nich jeden był oceniany przez panel ekspertów, ale ostatecznie nie został sfinansowany. To pokazuje, że zastosowane algorytmy były bardziej liberalne niż eksperci, a ich ocena wydaje się tylko częściowo przydatna.

Podsumowując doświadczenie z pilotażowego wykorzystania AI w konkursach HR22 i HR23, autorzy konkludują, iż skuteczne decyzje muszą być wynikiem odpowiedzialnego wykorzystania mocnych stron sztucznej inteligencji, takich jak szybkie przetwarzanie ogromnych ilości danych, zidentyfikowanie ukrytych wzorów i ocen stronniczych. Do sensownego wykorzystania wyników automatycznych procesów wymagane jest jednak doświadczenie ekspertów wnoszących możliwość zrozumienia niuansów i dostrzeżenia kontekstu.

Wykorzystanie sztucznej inteligencji w procesie podejmowania decyzji niesie ze sobą liczne wyzwania, w tym ryzyko „odhumanizowania” ocen, nawet jeśli ostateczna decyzja pozostaje w rękach człowieka, a AI jedynie dostarcza rekomendacji. Recenzenci, którzy otrzymają do oceny kilkadziesiąt wniosków z dołączonymi sugestiami AI, mogą ulec pokusie szybkiej i pobieżnej weryfikacji, co zwiększa prawdopodobieństwo błędnych decyzji. Szczególnie problematyczne mogą być skrajne przypadki. Wniosek o niskiej wartości merytorycznej, ale świetnie napisany z pomocą zaawansowanego AI, może otrzymać pozytywną ocenę zarówno od algorytmu, jak i nieuważnego recenzenta. Z kolei projekt proponujący realizację prawdziwie nowatorskiego i przełomowego pomysłu badawczego, napisany przez naukowca bez wsparcia AI i obciążony językowymi czy strukturalnymi niedociągnięciami, może zostać niesłusznie oceniony negatywnie przez AI i na tej podstawie odrzucony przez recenzenta.

Sztuczna inteligencja nie jest z natury obiektywna. Jej stronniczość może wynikać z danych użytych do trenowania, samego algorytmu lub generowanych przez nią przewidywań. Może to odzwierciedlać i utrwalać ludzkie uprzedzenia, różnice kulturowe, czy nierówności społeczne. Styl pisania naukowców z różnych obszarów geograficznych czy kultur różni się, nawet jeżeli weźmie się pod uwagę pisanie wniosków grantowych w tym samym języku (np. angielskim). Elementy takie jak bezpośredniość lub dystans, stopień pewności w argumentacji, styl opisowy lub perswazyjny, zdania długie i skomplikowane lub krótkie i konkretne, skromność lub podkreślanie własnego wkładu – to wszystko może wpływać na percepcję tekstu przez AI. W związku z tym algorytm wytrenowany na wnioskach grantowych pisanych przez Polaków może inaczej oceniać wnioski składane do NCN przez cudzoziemców pracujących w Polsce lub Polaków z doświadczeniem zagranicznym (i odwrotnie). Należy podkreślić, że tego typu uprzedzenia są również powszechnie obecne w interpretacji ludzkiej, a recenzenci wniosków grantowych także im nieświadomie ulegają. W przypadku stosowania AI istotne jest uwzględnienie i kontrolowanie tych stronniczości oraz dążenie do ich zminimalizowania, co nie jest łatwe, ponieważ wymaga dużej ilości odpowiednio zbalansowanych danych. Eliminowanie uprzedzeń w uczeniu maszynowym przy trenowaniu i testowaniu nowych metod jest skomplikowanym zadaniem. Ponadto istnieją udokumentowane przypadki umyślnego wprowadzania uprzedzeń i ograniczania dostępu do niektórych treści przez twórców metod AI, np. poprzez ukrywanie niewygodnych politycznie faktów oraz adaptowanie narracji do aktualnych norm politycznej poprawności (Jeremy Baum and John Villasenor, The politics of AI: ChatGPT and political bias, 2023, https://www.brookings.edu/articles/the-politics-of-ai-chatgpt-and-political-bias/).

Biorąc pod uwagę powyższe uwarunkowania, wracamy do tytułowego pytania: czy NCN jest gotowe na stosowanie AI przy ocenie wniosków grantowych oraz ich recenzji, by wyeliminować potencjalną stronniczość, wyrównując szanse aplikujących i radykalnie ograniczyć niesłuszne, niewystarczające, nielogiczne i błędne recenzje pierwszego etapu oceny? Odpowiedź nie jest prosta. Wydaje się, że pewien postęp uzyska się, wykorzystując AI do oceny samych recenzji i ewentualnie korelacji treści recenzji z samym wnioskiem. AI mogłaby też identyfikować najbardziej adekwatnych recenzentów do oceny wniosków w drugim etapie, tym samym eliminując obawy niektórych aplikujących o niewłaściwy ich wybór.

Jeśli jednak AI miałaby być zastosowana do wspomagania ekspertów, to można by zrezygnować z krótkiej wersji wniosku, utrzymując dwustopniową ocenę. Nowy formularz składałby się z dwóch części ocenianych osobno: jedna to część merytoryczna bez możliwości identyfikacji osoby aplikującej, jej statusu naukowego i afiliacji, a druga to opis dorobku osoby aplikującej. Algorytm analizowałby naukową część wniosku pod kątem poprawności ze stanem wiedzy i wskazywał, jakie wnioski mają niskie szanse na dobrą ocenę w procesie recenzji przez specjalistów oraz uzasadniał to odpowiednim komentarzem. Eksperci mieliby za zadanie ocenić, czy wnioski, które zdaniem AI nie mają szans na pozytywną ocenę, zostały właściwie ocenione i czy komentarz AI jest uzasadniony. Jeśli przynajmniej jeden ekspert nie zgodziłby się z negatywną oceną, wniosek wróciłby do puli przesyłanej do drugiego etapu.

Czy AI miałaby oceniać dorobek aplikujących, czy jedynie sam projekt? Wnioski w najbardziej powszechnym konkursie OPUS są przygotowywane przez osoby na bardzo różnym etapie kariery naukowej i dlatego taką ocenę należałoby całkowicie pozostawić ekspertom. Natomiast w konkursach dedykowanych dla określonych grup badaczy, jak Preludium, SONATA czy MAESTRO, można by rozważyć wykorzystanie AI do wstępnej oceny dorobku takich osób jako materiału pomocniczego dla ekspertów. To mogłoby im pomóc zidentyfikować merytorycznie nieuzasadnioną ocenę wykonaną przez człowieka, gdyby taka ocena znacząco odbiegała od oceny AI.

Ewentualne wprowadzenie AI do wspomagania pracy koordynatorów i ekspertów w NCN należałoby robić stopniowo, w wybranej grupie paneli i pilotażowo porównać efekty tradycyjnej oceny z efektami pracy wspomaganej przez AI, czyli tak, jak to zrobiła Fundacja „la Caixa”. Należy wyraźnie podkreślić, że na każdym etapie oceny to ludzie powinni decydować o rankingu wniosków i ocenach aplikujących, a ostateczną decyzję o skierowaniu wniosków do finansowania podejmowałby, tak jak obecnie, panel ekspertów.

Fundacja „la Caixa” nie jest jedyną, która wprowadziła AI do asystowania przy ocenie wniosków grantowych. Oprócz niej AI stosują m.in. National Natural Science Foundation of China, Canadian Institutes of Health Research oraz The Research Council of Norway. Należy jednak zauważyć, że niektóre duże organizacje sprzeciwiają się takiemu stosowaniu AI. Jedną z nich są Narodowe Instytuty Zdrowia (NIH) w USA i Australijska Rada Badań (ARC), a naukowcy związani z Europejską Radą Nauki (ERC) podkreślają, że AI może mieć tylko rolę wspierającą w automatyzacji powtarzalnych i administracyjnych zadań oraz w sprawdzaniu faktów, podsumowaniach i tłumaczeniach (C.C. Cortés i inni, j.w.).

Punktem wyjścia naszego artykułu było przywołanie licznych głosów krytyki i przyznanie, że procesy oceny wniosków grantowych w NCN wymagają modyfikacji, a w szczególności pierwszy etap oceny, w wyniku którego bardzo duża liczba wniosków jest odrzucana. Zasadniczym pytaniem jest, jak to zrobić, by system rzeczywiście poprawić, nie opóźniając ostatecznych decyzji. Biorąc pod uwagę globalne problemy z oceną artykułów i projektów naukowych, zaproponowaliśmy, iż jedną z możliwych zmian jest wykorzystanie algorytmów sztucznej inteligencji do wspomagania pracy koordynatorów, ekspertów i recenzentów.

Na początek AI mogłaby zostać zaangażowana w weryfikację zgodności recenzji z wymaganiami formalnymi oraz w podnoszenie ich jakości. Jeśli to rozwiązanie okazałoby się skuteczne, możliwe byłoby wprowadzenie systemów AI w kontrolowany sposób do wspomagania recenzentów w ocenie zgodności wniosków z kluczowymi kryteriami NCN. We wszystkich tych przypadkach całkowita odpowiedzialność musi spoczywać na człowieku, który powinien być odpowiednio przeszkolony i świadomy wyzwań oraz ryzyka związanego z wykorzystaniem AI w procesach decyzyjnych.

Zdajemy sobie sprawę z tego, iż zgoda na takie działanie wywoła burzliwą dyskusję. Chcielibyśmy zasugerować, by oprócz krytyki dyskutanci i komentatorzy zaproponowali inne rozwiązania. Miejmy nadzieję, że w wyniku takiej wymiany opinii członkom Rady NCN i jej pracownikom uda się wypracować oczekiwane zmiany w procedurach oceny wniosków grantowych, które będą dobrze przyjęte przez środowisko naukowe.

Wróć