Jan Cieślinski

Podnoszenie poziomu badań czy wyścig o punkty?

Caucus race – rozdanie nagród, „Alice’s Adventures in Wonderland” (1865, ilustracja Johna Tenniela)

Wyniki ewaluacji działalności naukowej jeszcze kilka lat temu służyły głównie do podziału środków na tzw. badania statutowe, które w przypadku uczelni były tylko niewielkim uzupełnieniem budżetu, mającym jednak duże znaczenie dla wydziałów, które je pozyskiwały. Miało tu miejsce sprzężenie zwrotne pomiędzy wysokością funduszy na badania a uzyskaną kategorią naukową. Obecnie, w świetle ustawy z roku 2018, sytuacja się zmieniła. Dotacja na badania statutowe rozpłynęła się w subwencji uczelnianej, a ewaluacja stała się podstawą całego systemu szkolnictwa wyższego. Uzyskane kategorie są teraz jedynym kryterium uzyskiwania uprawnień akademickich, regulują status uczelni oraz odgrywają istotną rolę w podziale subwencji, czyli mają duży wpływ na wielkość funduszu płac.

Niestety, mimo swego kluczowego znaczenia, ewaluacja jest jednym z najsłabszych elementów systemu. Miało to być narzędzie pomiaru jakości badań naukowych, ale uzyskany efekt niepokojąco przypomina klasyczny caucus race.

„Po pierwsze, [Dodo] nakreślił tor wyścigowy, mniej więcej przypominający koło (– Dokładny kształt nie ma znaczenia – powiedział), a później całe zgromadzenie ustawiło się, to tu, to tam, wzdłuż toru. (…) każdy rozpoczynał i kończył bieg, kiedy przyszła mu na to ochota, tak że niełatwo było stwierdzić, kiedy nastąpiło zakończenie wyścigu. Jednak gdy biegli już około pół godziny i wyschli już zupełnie, Dodo zawołał nagle: – Wyścig zakończony! – i wszyscy stłoczyli się wokół niego, dysząc i pytając: – Ale kto wygrał? (…)

– Wszyscy wygrali i każdy musi otrzymać nagrodę.

(…) Wypadło dokładnie po cukierku na każdego. (…) Z kolei należało zjeść cukierki: spowodowało to nieco zgiełku i zamieszania, gdyż wielkie ptaki uskarżały się, że nie mogą ich nawet posmakować, a małe dławiły się i trzeba je było klepać po grzbiecie” (Lewis Carroll, Alicja w Krainie Czarów, przekład Macieja Słomczyńskiego).

W przypadku tej opowieści przynajmniej cel całej zabawy był jasno określony (osuszenie przemoczonego towarzystwa) i skutecznie osiągnięty. W przypadku naszej ewaluacji też było dużo zamieszania i wszyscy mieli pełne ręce roboty. Cukierki w postaci uprawnień akademickich dostali chyba wszyscy, którzy wyciągnęli po nie rękę.

Nie ma jednak co narzekać, bo równie dobrze w roku 2022 mógł zapaść inny werdykt. Wystarczyło tylko (nie zmieniając dosłownie niczego w ocenie punktowej dyscyplin) inaczej poustawiać progi referencyjne, ustalane przecież post factum i wyglądające na wzięte z sufitu, aby oznajmić, że połowa uczelnianych dyscyplin „przegrała”, dostaje kategorię C i jest do natychmiastowej likwidacji. Wszystko na bazie tych samych wyników i na podstawie tego samego rozporządzenia. Niezależnie od tego kto i jak ustala te progi, poziom odniesienia (wysokość poprzeczki) jest zagadką dla uczestników tych „zawodów”. Progi pełnego przewyższenia (kto pamięta, co to właściwie jest?) także mogą dużo namieszać (ich złe ustawienie zaniżyło i wypaczyło punktację kryterium 2. dla większości uczelnianych dyscyplin). Wszechwładza nietransparentnych progów jest elementem niezmiennym od wielu lat.

W sposobie zarządzania nauką tak mocno przebija chaos i brak spójnego celu, że aż dziwne, iż na papierze cel taki istnieje i jest zdefiniowany w dokumentach Ministerstwa Finansów związanych z ustawą budżetową. Zatem można by rzec, że oczekiwania wobec sektora naukowego są precyzyjnie wyartykułowane (nomen omen), odkąd tylko funkcjonuje tzw. budżet zadaniowy. Chodzi mianowicie o poziom badań naukowych mierzony liczbą artykułów indeksowanych w międzynarodowych bazach danych oraz liczbą patentów.

Warto literalnie przytoczyć aktualne sformułowania („Zestawienie zbiorcze celów i mierników funkcji państwa do WPFP na lata 2023 – 2026”). Cel: „Podniesienie poziomu wyników badań naukowych”. Miernik: „Liczba publikacji autorów z Polski w czasopismach zawartych w bazie danych Scopus”. Uzasadnienie wyboru miernika: „Liczba publikacji indeksowanych, o wysokim prestiżu, odzwierciedla aktywność naukową polskich naukowców. Miernik adekwatny do celu. Jest to miernik oddziaływania oddający długofalowe efekty działań dla podniesienia jakości badań naukowych prowadzonych w Polsce. Zaletą miernika jest jego obiektywność i brak podatności na manipulację”. Nie ma tu mowy o umiędzynarodowieniu, czyżby zatem wskazanie zagranicznej bazy Scopus było motywowane nieufnością do ocen czasopism dokonywanych przez czynniki krajowe? Obawa ta nie jest bezpodstawna. Drugim miernikiem tego samego celu jest liczba patentów polskich, europejskich i amerykańskich (o tych ostatnich zapomniano w regułach ewaluacji). Uzasadnienie: „Miernik pokazuje międzynarodową wartość wyników badań naukowych prowadzonych w Polsce, pozwala ocenić podejmowane działania mające na celu wzmocnienie jakości badań” (czy jednak patenty polskie mają przełożenie na efekty międzynarodowe?). Innych celów i mierników dla nauki nie wskazano. Stabilność tych budżetowych zapisów przez ostatnie 15 lat jest wręcz zadziwiająca.

Reguły ewaluacji powinny brać pod uwagę zalecenia budżetu zadaniowego, zwłaszcza, że sformułowano je z tak niezwykłą konsekwencją, ponad wszelkimi podziałami. Niestety, takiego związku nie widać. Klasycznym przykładem rozbieżności jest to, że przez dobrych kilka lat (przed rokiem 2018) wiele czasopism indeksowanych w Scopusie nie widniało na liście ministerialnej (zatem nie miały one żadnego znaczenia w ewaluacji), mimo iż jednocześnie w budżecie zadaniowym rozliczano już sektor nauki na podstawie liczby publikacji tylko w tej bazie.

Manipulowanie punktacją w oderwaniu od „obiektywnych mierników” stoi w wyraźnej sprzeczności z literą i duchem cytowanego dokumentu. To samo dotyczy niezwykle zawyżonej roli prac powstałych w wyniku krajowych kooperacji. Jedna publikacja mogła w ostatniej ewaluacji „obsłużyć” kilka (a może nawet kilkadziesiąt) instytucji czy dyscyplin, w każdej licząc się z pełną wagą. Podobnie ocena poziomu badań poprzez skuteczność pozyskiwania środków z budżetu państwa (przypomina to ocenę jakości artykułu poprzez liczbę jego stron, co kiedyś poważnie brano pod uwagę). Dlaczego premiowana jest maksymalizacja kosztu badań, a nie ich efekty?

Fundamentalnym błędem rozporządzeń ewaluacyjnych jest przeoczenie lub zignorowanie prostych słów, definiujących nasz cel: podniesienie poziomu wyników badań naukowych. Aby stwierdzić czy poziom badań się podniósł, trzeba go najpierw jakoś zmierzyć, a po pewnym czasie zmierzyć drugi raz, stosując te same mierniki. Inaczej żadne porównywanie nie ma sensu i trudno mówić, że coś spadło lub się podniosło. Używając terminologii sportowej, chodzi o poprawienie wyniku, uzyskanie rekordu życiowego, rekordu Polski czy Europy, a nie o wygranie wyścigu zajęcy czy żółwi. Tymczasem z ewaluacji uczyniono coś w rodzaju zawodów w kilkudziesięciu dyscyplinach (może komuś się to faktycznie z dyscyplinami sportowymi skojarzyło?). Zwycięzcy zostają nagrodzeni, a ostatnich gryzą psy. Nie ma znaczenia, czy ktoś poprawił swój wynik, czy też nie. Każda kolejna ewaluacja rządzi się swoimi prawami, ich wyniki są w zasadzie nieporównywalne. Co gorsza, można podać hipotetyczne przykłady, że jednostka oceniona na A według jednych reguł, otrzymałaby C według reguł poprzednich i vice versa.

Dużą wadą algorytmów ewaluacyjnych jest brak oceny (docenienia) wybitnych osiągnięć (jest tylko zalecenie, aby to uwzględniać przy ocenie A+). Może więc warto trochę „przemeblować” kryteria, aby na przykład kryterium 3. było związane z oddziaływaniem na gospodarkę i społeczeństwo (zatem pozostałyby tam opisy wpływu, ale doszłaby komercjalizacja, przychody, patenty czy popularyzacja nauki), zaś kryterium 2. obok liczby prestiżowych grantów zawierałoby wskaźniki związane z doskonałością naukową (teraz nieobecne), jak choćby liczba publikacji w takich pismach jak „Nature” czy „Science” bądź prestiżowe wyróżnienia naukowe.

Obecne reguły ewaluacji są bardzo podatne na różne manipulacje, dotyczy to zwłaszcza kwestii slotów i deklarowanych dyscyplin. Ostateczny wynik bardziej zależy od zastosowania lub zaniechania różnych zabiegów optymalizacyjnych (wykonywanych z poziomu uczelni) czy wykorzystania „odpowiednich” kanałów publikacyjnych (czasem bardzo kosztownych) niż od faktycznego wzrostu poziomu badań.

Istnieje też problem miernika, jakim jest liczba publikacji. W ostatnich latach nastąpiła ogromna inflacja, wręcz zalew, prac naukowych (w skali krajowej i światowej). Zatem liczba publikacji (nawet ważona jakimiś punktami) już dawno przestała być dobrym miernikiem. Nie ma sensu ekscytować się wskaźnikami wzrostu liczby publikacji w bazie Scopus. Nawet liczba czasopism w tej bazie dynamicznie rośnie, nie mówiąc o objętości każdego numeru (odkąd wydawcy nie muszą artykułów drukować, puściły wszelkie hamulce). Średnia „wartość” jednej publikacji zatem wyraźnie spadła i wciąż szybko maleje. Ale uśrednianie, zwłaszcza po tak dużych i niejednorodnych zbiorach danych, zawsze grozi utratą wszelkiej sensownej informacji. Nie warto pochopnie uśredniać. W nauce liczą się przede wszystkim istotne osiągnięcia. Duża liczba prac o słabym poziomie nie ma żadnego znaczenia. Warto też identyfikować publikacje, w których dany ośrodek jest liderem (większość autorów, pierwszy i/lub ostatni autor albo jedno i drugie), i liczyć je z większą wagą albo nawet w innej rubryce niż publikacje, w których udział ocenianego ośrodka jest tylko niewielkim przyczynkiem.

Na koniec chciałbym zasygnalizować swoje nowe pomysły dotyczące punktacji czasopism. Proponuję utworzenie dwóch list czasopism punktowanych: międzynarodowej opartej na bazie Scopus oraz polskojęzycznej grupującej czasopisma (w tym wielojęzyczne) przyjmujące artykuły w języku polskim. Dla poszczególnych dyscyplin należałoby ustalić, jaka powinna być proporcja obu list w zbiorze 3N artykułów przedkładanych do ewaluacji. Jeśli czasopismo jest na obu listach, to artykuł może być wykazany do ewaluacji albo jako polski, albo jako międzynarodowy (w zależności od tego, co dla uczelni będzie korzystniejsze). Uwaga: polskojęzyczność nie dotyczy tylko humanistów. Warto promować język polski oraz rozwój polskiej terminologii w wielu dyscyplinach, choćby w medycynie czy technice, wszędzie tam, gdzie jest szerokie grono potencjalnych czytelników krajowych, także spoza uczelni. Dlaczego Polak dla Polaków ma pisać po angielsku?

Punktacja czasopism międzynarodowych, ustalona wstępnie według wskaźników bibliometrycznych, powinna podlegać empirycznej weryfikacji post factum, na zasadzie sprzężenia zwrotnego. Jeśli nastąpi wzrost odsetka polskich afiliacji w danym piśmie (powyżej ustalonego poziomu właściwego dla danej punktacji), to punktacja czasopisma jest automatycznie obniżana (stosownie do skali tego wzrostu).

Prestiż czasopisma to przede wszystkim stabilność i tradycja. Prestiż nie powstaje w wyniku skoku jakiegoś wskaźnika. Prestiż buduje się latami, choć istnieją sytuacje, gdy można go stracić bardzo szybko. Tu nie ma symetrii. Czasopismo będące w fazie dynamicznego wzrostu lub upadku (mierząc liczbą artykułów) nie powinno mieć zbyt wysokiej punktacji. Szybki wzrost pociąga za sobą niedobór rzetelnych recenzentów i obniżenie jakości, a malejąca liczba autorów źle świadczy o prestiżu czasopisma.

Duże wahania liczby artykułów powinny skutkować obniżeniem punktacji czasopisma. To kryterium może dotyczyć obu list. Dla listy polskojęzycznej trudniej jednak wskazać proste kryterium post factum związane ze strukturą afiliacji autorów. Struktura ta powinna odzwierciedlać średni rozkład krajowy, tym dokładniej, im bardziej prestiżowe jest czasopismo.

Gdyby udało się opracować dobre i precyzyjne zasady weryfikacji post factum (co jest trudne, ale wydaje się wykonalne), to ostateczna punktacja czasopism byłaby dość obiektywnym miernikiem ich poziomu, odpornym na nieoptymalne lub błędne ustawienie punktacji początkowej (z czym zawsze są problemy).

Jan Cieślinski, Wydział Fizyki UwB

Wróć