Andrzej Jajszczyk

Pułapki ewaluacji

Fot. Stefan Ciechan

Przeniesienie mechanizmów używanych w kategoryzacji jednostek naukowych na ocenę indywidualnych pracowników prowadzi do patologii.

Sposób indywidualnej oceny okresowej pracowników wielu uczelni powiela mechanizmy rozporządzenia dotyczącego kategoryzacji jednostek naukowych. Argumentem za takim rozwiązaniem ma być zmobilizowanie pracowników do zachowań, które zmaksymalizują liczbę punktów uzyskiwaną przez uczelnię w procesie kategoryzacji, a tym samym przełożą się na wysokość subwencji uzyskiwanej z ministerstwa. To jednak prosta droga do katastrofy – sprzeniewierzenie się misji edukacyjnej uczelni, a także, w pewnej perspektywie, patologiczne ukształtowanie jej profilu naukowego, preferujące kierunki badań najbardziej korzystne z punktu widzenia algorytmu ewaluacji. Przed przenoszeniem ocen instytucjonalnych na oceny indywidualne ostrzegają eksperci, a także międzynarodowe ciała skupiające uczelnie.

Pułapka wielu autorów

Przyjęty sposób punktowania prac wieloautorskich miał w zamyśle premiować współpracę naukowców pracujących w różnych jednostkach, przy czym dotyczyło to w największym stopniu publikacji w miejscach najbardziej prestiżowych. Oczywiście takie założenie jest jak najbardziej uzasadnione, chociaż jego praktyczna realizacja okazała się trudna.

W szczególności punktacja za autorstwo artykułu w czasopiśmie naukowym lub materiałach konferencyjnych zamieszczonych w wykazie czasopism, dla publikacji z punktacją 200, 140 bądź 100 punktów, zapewnia 100% punktów dla ocenianej jednostki (przez ewaluowaną jednostkę należy rozumieć dyscyplinę naukową afiliowaną w danej uczelni) bez względu na stosunek liczby autorów z ewaluowanej jednostki do liczby wszystkich autorów.

Wspomniane wyżej rozwiązanie może być wyraźnie niesprawiedliwe. Wyobraźmy sobie, że artykuł oceniany na 100 punktów został napisany przez dziesięciu autorów, z czego jeden jest pracownikiem jednostki A, a pozostałe osoby są pracownikami jednostki B. W tej sytuacji jednostka A otrzyma 100 punktów na konto swojego pracownika, a jednostka B również otrzyma 100 punktów. Czyli obie jednostki otrzymają tę samą liczbę punktów do ewaluacji, podczas gdy wkład w powstanie artykułu był znacząco większy w jednostce B (dla uproszczenia zakładam równe udziały wszystkich autorów w powstaniu publikacji). O ile niesprawiedliwość ta może nie mieć większego znaczenia w przypadku ewaluacji dużych jednostek naukowych, to w przypadku przenoszenia tego podejścia na ocenę indywidualną możemy sobie wyobrazić, że w skrajnym przypadku pracownik z jednostki A, świadczący drobne usługi pomiarowe dużemu zespołowi z jednostki B i z tego powodu dopisywany do listy autorów każdej publikacji dużego zespołu, może w jednostce A zostać zupełnie niezasłużenie „naukową gwiazdą”.

Wyobraźmy sobie z kolei, że artykuł oceniany na 100 punktów został napisany przez dziesięciu autorów, przy czym każdy jest zatrudniony w innej jednostce. W tej sytuacji każda jednostka otrzyma 100 punktów, czyli jedna publikacja za 100 punktów wygeneruje łącznie 1000 punktów do ewaluacji jednostek.

Pułapka dwóch dyscyplin

Gdy dwóch stale współpracujących ze sobą i wspólnie publikujących naukowców przypisze się do dwóch formalnie różnych, ale zbliżonych do siebie dyscyplin, może na podstawie wspólnej publikacji otrzymać komplet przyznawanych za nią punktów. Załóżmy, że jeden ze współpracujących ze sobą informatyków jest przypisany do dyscypliny informatyka, a drugi do dyscypliny informatyka techniczna i telekomunikacja. W wyniku tego, przykładowo, za artykuł wart 200 punktów każdy z tych informatyków może otrzymać po 200 punktów (gdy jeden raportuje go z pierwszej, a drugi z drugiej dyscypliny). Ale za podobny tekst napisany przez dwie osoby reprezentujące tę samą formalną dyscyplinę każda otrzyma tylko po 100 punktów. Co więcej, pracownik może złożyć oświadczenie o reprezentowaniu dwóch dyscyplin (art. 343 ust. 8 ustawy 2.0) i przypisywać swoje publikacje do tej dyscypliny, która jest w konkretnym przypadku dla niego korzystna. Paradoks polega na tym, że przypisanie publikacji do konkretnej dyscypliny odbywa się na podstawie oświadczenia autora. Dwóch autorów jednej publikacji przypisuje ją do różnych dyscyplin i w ten sposób nie dzielą punktów pomiędzy sobą. Łatwo zauważyć, że to dogodne pole do nadużyć.

Pułapka łączonych dyscyplin

Obowiązujący obecnie w Polsce podział na dyscypliny naukowe stosowany w ewaluacji jednostek zawiera dyscypliny stosunkowo szerokie, obejmujące szereg zróżnicowanych wzajemnie poddyscyplin. Takie podejście ma premiować interdyscyplinarność, co wydaje się uzasadnione. Jednakże problem pojawia się wtedy, gdy reguły oceniania wybranych poddyscyplin różnią się znacząco od tych przyjętych dla innych poddyscyplin. W przypadku oceny instytucjonalnej nie ma z tym większego problemu, po prostu całe dyscypliny z różnych uczelni są porównywane ze sobą na tych samych zasadach. Oczywiście tylko w przypadku podobnej wielkości udziałów poszczególnych poddyscyplin w całej dyscyplinie. Gdy jest jednak inaczej, zaczynają się kłopoty.

Przyjrzyjmy się następującemu przykładowi. Porównujemy dwie uczelnie prowadzące badania w dyscyplinie informatyka techniczna i telekomunikacja. Przy czym w jednej badania te są skoncentrowane na informatyce, a w drugiej na telekomunikacji, i załóżmy, że w obu przypadkach jakość tych badań jest zbliżona. Naukowcy z obu uczelni publikują w dobrych czasopismach i biorą udział w najlepszych konferencjach z obszarów swoich zainteresowań. Jednakże w parametryzacji znacznie lepiej zostanie oceniona pierwsza z przykładowych uczelni. Przyczyna jest prosta: punktacja dotyczy nie tylko czasopism naukowych, w których publikują naukowcy (tu Komisja Ewaluacji Nauki starała się w zrównoważony sposób punktować czasopisma z różnych poddyscyplin), ale także uwzględnia ranking konferencji CORE. Ten ranking to australijska baza konferencji ważnych z punktu widzenia informatyków australijskich. Preferuje także konferencje z tamtego obszaru geograficznego. W bazie CORE znajduje się też trochę konferencji ważnych dla naukowców uprawiających badania w obszarze telekomunikacji, ale są one na ogół słabo punktowane, jako będące poza głównym obszarem zainteresowań informatyków. Części konferencji bardzo ważnych dla specjalistów z telekomunikacji nie ma w tej bazie w ogóle.

Jeszcze gorzej wygląda sytuacja, gdy przenosząc zasady oceny instytucjonalnej na indywidualną, na jednym wydziale porównuje się na przykład informatyków, elektroników i naukowców zajmujących się telekomunikacją. Konferencji z obszaru elektroniki nie ma w bazie CORE zupełnie, a z telekomunikacji tylko nieliczne i w dodatku słabo punktowane. Może się okazać, że nawet bardzo dobrzy przedstawiciele elektroniki czy telekomunikacji będą wypadać gorzej niż przeciętni naukowo informatycy, co może się przekładać na wysokość zarobków i nagród okresowych. Długofalowo doprowadzi to do zamierania innych niż informatyka obszarów badań z powodu odchodzenia zdemotywowanych pracowników. Oczywiście podobne sytuacje mogą wystąpić i w innych dyscyplinach.

Pułapka slotów

Przenoszenie oceny instytucjonalnej do indywidualnej może prowadzić do takiej sytuacji, że naukowiec, który w okresie rozliczeniowym opublikuje jedną przełomową pracę mającą wielki wpływ na rozwój nauki w skali światowej, zostanie oceniony negatywnie, ponieważ nie wypełnił wszystkich „slotów”, w przeciwieństwie do autora czterech bardzo przeciętnych, ale punktowanych prac.

Usłyszałem także o innej możliwości wypaczenia idei slotów (Polskim odpowiednikiem angielskiego słowa slot jest szczelina; szkoda, że nie używa się go w oficjalnych dokumentach), przedstawionej jako propozycja do stosowania w pewnej uczelni. Wyobraźmy sobie, że naukowiec wypełnił już całkowicie swoje cztery sloty i opublikował kolejną pracę z kolegą z tej samej jednostki. Poleca mu się zaniechanie zadeklarowania dyscypliny związanej z tym artykułem. Całość punktów przechodzi więc na konto kolegi, wypełniając jego slot. Mam wrażenie, że gdyby uczeni z naszego kraju byli tak kreatywni w badaniach naukowych, jak w pomysłach na obchodzenie systemu ewaluacji, bylibyśmy światową potęgą naukową.

Możliwe modyfikacje sposobu oceny

Zakładając, że generalnego algorytmu parametryzacji nie da się obecnie zmienić, a zadanie przekonania szefów jednostek, by nie stosowali sposobu punktacji jednostek do swoich pojedynczych pracowników jest niewykonalne, podaję poniżej sposoby niewielkiego ulepszenia systemu.

Należy przyznawać punkty za autorstwo poszczególnym naukowcom (którzy w ten sposób wypełniają swoje sloty) zgodnie ze wzorem: p/m, gdzie p jest całkowitą wartością punktową artykułu, a m oznacza liczbę autorów artykułu naukowego ogółem.

Proponowany sposób liczenia punktów daje szereg korzyści. Jedną z nich jest uproszczenie sposobu liczenia punktów i uniezależnienie go od deklaracji naukowca, do której dyscypliny naukowej zamierza przypisać swój wkład w publikację. Każda ewaluowana jednostka naukowa otrzyma punkty za publikację w liczbie proporcjonalnej do liczby autorów będących pracownikami tej jednostki. Podany sposób eliminuje także sztuczne zapisywanie się do dwóch dyscyplin, by wykorzystywać to do korzystniejszej, w ocenie indywidualnej, punktacji publikacji wieloautorskich. Proponowane rozwiązanie ma jednak oczywistą wadę, a mianowicie nie motywuje do pracy zespołowej, tak ważnej we współczesnym uprawianiu nauki. Może prowadzić też do takich absurdów, że uczelnia, której pracownik jest głównym autorem artykułu, np. w „Nature”, napisanego z czterema naukowcami z innych uczelni, otrzyma tyle samo punktów w ewaluacji co w przypadku przeciętnego, jednosoobowego artykułu opublikowanego w trzeciorzędnym czasopiśmie ocenianym na 40 punktów.

Uważam także, że należy zastąpić preferujący jedną dyscyplinę ranking CORE którymś z rankingów konferencyjnych obejmujących wszystkie dziedziny nauki, takich jak, na przykład: Guide2Research, Microsoft Academic, GII-GRIN-SCIE (GGS) Conference Rating czy Conference Ranks. Alternatywą jest przyznawanie punktów za konferencje na poprzednich zasadach, tzn. na podstawie indeksowania publikacji w bazie Web of Science. Warto by też dostosować punktację za konferencje do ich realnej wartości. Obecnie konferencje otrzymują punkty z zakresu 10–200, tj. tak samo jak publikacje w czasopismach. Najlepsze konferencje są punktowane jak najlepsze międzynarodowe czasopisma naukowe, lecz jednak ranga czasopism jest w środowisku naukowym większa, a proces oceny zgłoszonych prac na ogół bardziej staranny (mniejsza presja czasowa). Moim zdaniem najlepsze konferencje naukowe powinny otrzymywać maksymalnie 140 punktów.

Skutki ocen liczbowych

Sposób parametryzacji oparty na wskaźnikach liczbowych ma liczne słabości, z których niektóre przedstawiono powyżej. Szczególnie destrukcyjne mogą być próby przeniesienia stosowanych w nim miar i algorytmów na ocenę indywidualną pracowników jednostek naukowych. Nietrudno zauważyć, że takie podejście może prowadzić do zaniedbywania bądź wręcz unikania przez naukowców obowiązków dydaktycznych i organizacyjnych, a koncentrowanie się wyłącznie na pracy naukowej. Jakie to będzie miało konsekwencje dla realizacji misji uczelni, łatwo sobie wyobrazić. Warto pamiętać także o uwzględnieniu w ocenie prac na rzecz gospodarki, co nie zawsze dobrze wpasowuje się w czteroletnie okresy ewaluacji, a także udział pracowników w pracach ciał eksperckich czy w organizacjach przynoszących uczelni prestiż i międzynarodową widoczność.

Warto pamiętać, że parametryzacja szkół wyższych oparta na bibliometrii, punktach i algorytmach ma też swoje zalety i jest stosowana w wielu krajach. Jest znacznie tańsza i łatwiejsza do przeprowadzenia w skali sporego kraju niż rzetelna ocena środowiskowa (peer review), a także w pewnym stopniu zobiektyzowana i odporna na subiektywność ludzkich ocen i konflikty interesów. Pomijam tu możliwość manipulowania przy samych algorytmach czy ustalaniu punktacji osiągnięć naukowych. Manipulacjom przy ustalaniu punktacji artykułów zapobiega się w niektórych krajach przez przyjęcie jako podstawy punktacji wyłącznie międzynarodowych baz, takich jak Web of Science czy Scopus. Należy także zauważyć, że wprowadzenie ocen bibliometrycznych, przynajmniej w początkowym okresie stosowania takiego podejścia, przekłuło wiele nadętych balonów. Okazało się po prostu, że niektóre kariery „naukowe” nie miały z nauką wiele wspólnego, a opierały się na sprawności organizacyjnej i marketingowej oraz dobrze zorganizowanych sieciach kontaktów niektórych „koryfeuszy” nauki. Można niestety zauważyć, że niektórzy z nich nauczyli się obecnie manipulować także punktami.

Rozwiązania alternatywne

Poza próbami dostrajania czy poprawiania dotychczasowego systemu parametryzacji instytucji i niestety silnie z tym powiązanego sposobu oceniania indywidulanych naukowców, warto rozważyć całkowite odejście od tego systemu w przyszłości. Oczywistą alternatywą jest środowiskowa ocena uczelni przez odpowiednie zespoły niezależnych ekspertów. W skali naszego kraju, przy założeniu, że oceniamy wszystkie jednostki i dyscypliny, przyjęcie tej metody wydaje się niewykonalne. Można jednak korzystać z zalet ocen eksperckich w sposób hybrydowy, tak jak to zaproponowano poniżej.

Skorzystajmy po prostu z tego, że najważniejsze granty na badania naukowe są uzyskiwane na zasadzie oceny środowiskowej. W przypadku agencji, takich jak ERC, FNP i NCN, ocena jest dokonywana przez ekspertów pochodzących z różnych krajów, procedury przyznawania grantów przejrzyste, a jakość oceny generalnie wysoka. Utwórzmy więc ranking uczelni na podstawie średniej ważonej liczby uzyskanych grantów (inne wagi dla każdej z trzech wymienionych agencji), przypadających na stałą liczbę zatrudnionych w jednostce naukowców pochodzących z tych trzech agencji. Dodatkowo dwadzieścia uczelni z początku całej listy rankingowej będzie mogło ubiegać się o otrzymanie, podobnie jak obecnie, statusu jednej z dziesięciu uczelni badawczych. Będą one wyłaniane przez międzynarodowy panel ekspertów na podstawie oceny środowiskowej. Przy czym kryteria oceny będą tu szersze i obejmą zarówno ocenę dotychczasowego rozwoju jednostek, w tym w obszarze dydaktyki, jak i plany na przyszłość.

Oczywiście można zadać pytanie o wybór tylko trzech wspomnianych jednostek grantowych. Wynika to z przejrzystego systemu ich ocen i korzystania wyłącznie bądź przede wszystkim z kryterium doskonałości naukowej. A także z tego, że ERC, FNP i NCN przyznają granty na badania we wszystkich dyscyplinach naukowych. Inne agencje, np. EIC czy NCBR, są skupione na wybranych obszarach i muszą brać pod uwagę trudniej mierzalne aspekty komercyjne.

Jak w takim razie premiować uczelnie, które są znakomite w badaniach aplikacyjnych, a słabiej wypadają na przykład w NCN? Po pierwsze, można by je premiować, niezależnie od rankingu ściśle naukowego, dużymi nagrodami za działalność innowacyjną. Po drugie, przyjrzenie się sukcesom grantowym polskich uczelni pokazuje, że instytucje uzyskujące sukcesy w NCBR mają także dobre wyniki w NCN.

Warto rozumieć

Nie istnieją idealne systemy ewaluacji jednostek naukowych. Tak więc przy stosowaniu każdego z nich warto rozumieć, co jest ich celem i jakie mogą powodować skutki uboczne. W przypadku sposobu ewaluacji przyjętego w Polsce szczególnie dotkliwe skutki wywołuje użycie systemu oceny instytucjonalnej do oceny pracowników. Wywołuje to wśród naukowców frustracje i napięcia z powodu jawnej niesprawiedliwości takiego podejścia. Może też spowodować zanik niektórych obszarów badań i kształcenia, ważnych z punktu widzenia konkretnych uczelni, a także kraju.

Naprawianie istniejącego w naszym kraju systemu ewaluacji nie jest go w stanie uzdrowić – po prostu eliminacja niektórych wad generuje inne. Może więc po prostu zaprzestać jakiejkolwiek ewaluacji instytucjonalnej? Ale jak wtedy dzielić publiczne środki między poszczególne uczelnie? Ich równy podział będzie de facto promowaniem słabeuszy bądź przeciętniaków. Jeszcze gorsze byłoby dzielenie środków według kryteriów politycznych czy powiązanych z umiejętnym lobbingiem jednostek. Rozwiązaniem jest ocena środowiskowa (peer review), która zresztą ma też swoje słabe strony. Jak wspomniano wcześniej, jej przeprowadzenie w pełnym wymiarze i przy korzystaniu z wysokiej jakości niezależnych ekspertów jest po prostu zbyt kosztowne i skomplikowane. Skorzystajmy więc z tego, że ekspercka i międzynarodowa ocena pomysłów naukowców, a także ich samych, jest już stosowana w ERC, FNP i NCN. Na tej podstawie można stosunkowo prosto, tanio i rzetelnie ocenić, z pewnym przybliżeniem, jakość naszych jednostek naukowych i na tej postawie podejmować decyzje związane na przykład z wysokością subwencji. Premiowanie grantów będzie też zachęcać uczelnie do zatrudniania dobrych naukowców, zdolnych takie granty pozyskiwać. Odpowiednie ustawienie wag za poszczególne rodzaje grantów powinno premiować również zatrudnianie naukowych gwiazd i stwarzanie im dobrych warunków pracy.

Prof. dr hab. Andrzej Jajszczyk, wiceprzewodniczący European Research Council

Wróć