Andrzej Skrendo, Jarosław Woźniak

Co wynika z porażki obecnego systemu ewaluacji?

Andrzej Skrendo

Co wynika z porażki obecnego systemu ewaluacji? 2

Jarosław Woźniak

Prof. Andrzej Skrendo, literaturoznawca, prorektor ds nauki Uniwersytetu Szczecińskiego i dr Jarosław Woźniak, matematyk, pełnomocnik ds. ewaluacji i monitoringu naukowego rektora USz, przedstawiają głębokie konteksty ewaluacji i proponują minimum zmian, jakie muszą nastąpić, aby kolejna ewaluacja nie okazała się porażką.

Mówić dziś o ewaluacji to mówić w sytuacji narastającego rozczarowania. Być może wręcz niemal powszechnego rozczarowania. Spróbujemy zobiektywizować to wspólne – także i nasze – odczucie. Im bowiem bardziej ono narasta, tym większy dystans należałoby zachowywać nie do ewaluacji, ale raczej do rozczarowania ewaluacją. Po to, żeby nie zastąpić złego systemu jeszcze gorszym. Takie postawienie sprawy nie oznacza, że powinniśmy się pogodzić ze złym systemem, lecz – jedynie i aż – uświadomić sobie, że z odczucia, że wiemy, czego nie chcemy, wcale nie wynika, że wiemy, czego chcemy. To deprymujące wrażenie płynie z większości dyskusji na temat tego, co dalej robić z ewaluacją.

Czy obecny system okazał się błędny w swoich założeniach, czego nie widzieliśmy, czy uległ zepsuciu, choć w założeniach był dobry? W obecnej sytuacji szkoda czasu, aby się tym zajmować, skala zepsucia jest zbyt duża. Za dużo rozmawiamy o wadach obecnego systemu, za mało o tym, jaki powinien być nowy. W niniejszym artykule nie rozstrzygamy, czy obecny system da się naprawić. Być może tak, być może nie. Uważamy, że warto odwrócić sposób myślenia: najpierw wskazać warunki, które powinien spełniać dobry system, i potem myśleć, czy da się naprawić stary, czy trzeba budować nowy. W naszym artykule ograniczymy się do próby wskazania owych warunków.

Co się da policzyć?

Przy takim postępowaniu zapewne okaże się, że wszyscy są rozczarowani, ale każdy czymś innym. Lektura kolejnych analiz i stanowisk, w których znajdują się wyliczenia i opisy patologicznych zachowań zgodnych z literą procedury ewaluacji, wytwarza mylące wrażenie – bo oparte raczej na podzielanej emocji niż na refleksyjnym rozpoznaniu wspólnego interesu – że jest dla wszystkich oczywiste, do czego potrzebujemy ewaluacji. I że chodzi tylko o to, aby właściwie ująć to, co oczywiste. Bo to, co oczywiste, właściwie ujęte, nie będzie ulegać zepsuciu. Ale to szkodliwe złudzenie. Owo poczucie oczywistości blokuje dyskusję na temat najważniejszy, czyli istoty ewaluacji. Rozważanie tego tematu uznaje się zwykle za czczą deliberację, która oddala nas od właściwego zadania, czyli zapisania tego, co jest rzekomym wspólnym założeniem. Jest to jednak cecha myślenia technokratycznego, które stanowi część problemu zwanego ewaluacją, nie zaś problemu tego rozwiązanie.

Jak sformułować ten problem? Być może zawiera się on w zawołaniu Emanuela Kulczyckiego: „Nie zmieniajmy naszych wartości i przekonań, aby osiągnąć cele wyznaczone przez metryki, lecz niech korzystanie z metryk będzie kierowane naszymi celami, wartościami i przekonaniami” (The Evaluation Game. How Publication Metrics Shape Scholarly Communication, Cambridge University Press 2023, 191). Co jednak, jeśli właśnie i przede wszystkim to, co stanowi treść tego zawołania jest niemożliwe? Bo wskaźniki – jak wynika z wielu prac powstających na całym świecie – jakimś fatalnym sposobem rychło stają się celami (koronnym dowodem IF). Niejako „wkradają się zarówno w nasze poczucie tego, kim jesteśmy, jak i w naszą praktykę i proces podejmowania decyzji jako pisarzy, badaczy i nauczycieli” (Stephen J. Ball, Living the Neo-liberal University, „European Journal of Education”, September 2015, Vol. 50, No. 3, 258), tworząc sztuczny świat, który zastępuje rzeczywisty. Bo zdecydowana większość wynalazków, które zmieniły nasze życie w XX wieku, powstała w sposób, który nigdy nie byłby możliwy do prawidłowego prześledzenia i oceny za pomocą dzisiejszych wskaźników ewaluacyjnych i prawdopodobnie nigdy nie miałby miejsca, gdyby alokacja zasobów na badania naukowe w przeszłości została dokonana w sposób tak krótkowzroczny, jak obecnie, w oparciu o wyniki zastosowania tych wskaźników” (O. Hallonsten, Stop evaluating science: A historical-sociological argument, „Social Science Information” 2021, Vol. 60(1), 12). Bo nasze cele tym się cechują, że nie dają się „zmetryzować”, albowiem „Nie wszystko, co można policzyć, się liczy, i nie wszystko, co się liczy, można policzyć” (Jerry Z. Muller, The Tyranny of Metrics, Princeton University Press 2018, 18).

W ramach owego nowego świata, który został wpisany we wskaźniki i rankingi, dążymy do osiągnięcia trzech głównych celów. Po pierwsze, powstaje system, w którym uniwersytety stają się korporacjami, naukowcy menadżerami własnej kariery, wykształcenie prywatnym dobrem pozyskiwanym w celu uzyskania przewagi konkurencyjnej, a studenci są konsumentami usług edukacyjnych. Po drugie, chodzi o to, aby wycisnąć z uczelni coraz więcej, dając coraz mniej. Po trzecie, aby wmówić naukowcom, że skoro nie dają rady, sami są sobie winni, żadnej winy nie ma zaś po stronie systemu. Służy temu przewrotna ekonomia prestiżu, która rzeczywiste stawki, o które ubiegają się uczeni, zamienia na nowoczesne substytuty, takie jak liczby cytowań i grantów.

To stąd przecież zgorszenie, jakie wzbudziła sprawa tzw. papierni (paper mills), bo uderza w istotę tak pojętego prestiżu. Mało kto jednak przyznaje, że nie jest to zjawisko wynikające z ewaluacji, lecz z założeń systemu, którego ewaluacja jest narzędziem. Skali działania „papierni” raczej nie da się zmierzyć w systemie, w którym wszystko ma być mierzone (bo np. nikt nie jest w stanie w żadnym konkretnym przypadku powiedzieć, ilu artykułów w danym okresie można być współautorem, aby nie narazić się na zarzut bycia dopisywanym). Jeszcze trudniej (niezależnie od skali) będzie ten proceder zwalczać, bo jest on pochodną najważniejszego założenia całego systemu, tj. że wartość naukową można ująć liczbowo. Nawet jeśli naukowcy w to nie wierzą, nie ma to znaczenia, skoro „wierzy” w to system i za to premiuje. Apele etyczne w tej sytuacji brzmią jak wyznanie bezradności.

W tym sensie mają rację ci, którzy mówią, że nie metryka jest problemem, ale coś zupełnie innego: dążenie do radykalnej ilościowej kwantyfikacji i natychmiastowej monetyzacji wszelkich stosunków wymiany. Tylko że wtedy nie bardzo wiadomo, jak użyć do naszych celów coś (metryki), w co wpisane zostały inne cele niż nasze. W tej sytuacji warto dopuścić myśl, że pomiary ilościowe powinny odgrywać mniejszą rolę w systemie i nie decydować w takiej skali jak obecnie o tak wielu aspektach funkcjonowania instytucji naukowych.

Żeby ukryć zmianę projektowaną i wymuszaną przez system, w którym parametryzacje i kategoryzacje odgrywają tak wielką rolę, wymyślono skomplikowany żargon. Kluczowe słowa służą do tego, żebyśmy nie zauważyli, jak jest. Wymieńmy tylko kilka takich słów. Doskonałość – doskonale puste słowo (jak dawno temu pokazał Bill Readings, The University in Ruins, 1996), za którym ukrywa się swoista koncepcja i norma „wydajności”. Wyrażenie „drapieżne czasopisma” – żebyśmy zapomnieli, że nie ma dziś różnicy między drapieżnymi a niedrapieżnymi. Otwarty dostęp – abyśmy nie pamiętali, że „otwarty dostęp” to bardzo często sposób zamykania dostępu, a w najlepszym razie reguła, której cel jest dokładnie odwrotny niż ten deklarowany. Jest bowiem tak, że „bogatsze zespoły badawcze publikują więcej otwartych artykułów w najbardziej prestiżowych czasopismach” (T. Ross-Hellauer Open science, done wrong, will compound inequities, https://www.nature.com/articles/d41586-022-00724-0, dostęp 10.03.2025). Światowe rankingi uniwersytetów – byśmy przeszli do porządku dziennego nad tym, że wskaźniki, na których się one opierają, są niejasne, a metodologia powstania nieprzejrzysta. I to tak bardzo, że w The Leiden Manifesto for research metrics wyścig w tych rankingach nazwany został obsesją. Międzynarodowa widzialność – jak wynika z raportu OPI, mimo że 70% opublikowanych w latach 2018-2022 przez polskich uczonych artykułów jest po angielsku, mimo że 1/5 z nich ukazała się w czasopismach za 140 i 200 punktów (liczba takich artykułów w pierwszym wypadku wzrosła o 140%, a w drugim o 46%) to cytowalność była tylko o 1% wyższa niż przeciętna na świecie i pozostaje najniższa w UE. Niektórzy tłumaczą ten fakt stwierdzeniem, że coś jest nie tak z naszymi listami czasopism. Owszem, jest coś nie tak, wszyscy wiemy. Ale dysproporcja, którą widzimy, jest zbyt wielka, a przytłaczająca daremność wysiłku uczonych, którzy tak znacznie podnieśli „wydajność”, naprawdę uderzająca. Owa daremność powinna nas skłaniać do pytania, czy aby na pewno potrzebujemy więcej tego samego (dalszego zwiększania „wydajności”) i czy gdzieś nie popełniamy jakiegoś zasadniczego błędu?

Warto wziąć pod uwagę następująca odpowiedź: z zapałem godnym lepszej sprawy ścigamy się w systemie, w którym międzynarodowe prywatne korporacje drenują publiczne finanse państwa narodowego, a tym samym przejmują zarząd nad publicznymi uczelniami (prywatnymi też, ale to trochę inna kwestia). „W wydawnictwie Wiley średnie APC to 2017 euro, maksymalne APC to 5640 euro (czasopismo „Advanced Science”), a 18 czasopism ma APC wyższe niż 3500 euro, czyli 15 000 zł za artykuł. W periodykach Elseviera średnie APC wynosi 2770 euro, maksymalne aż 9300 euro (blisko 40 000 zł, czasopismo „Cell”). Ogólnie na liście Elseviera na około 2000 czasopism 497 (ok. 25%) ma APC wyższe niż 3500 euro, a więc ponad 15 000 zł. za artykuł” (przypominał ostatnio w „Forum Akademickim”, nr 2025/2, P. Kasprowski, Jak naprawić system publikacyjny?). Nie istnieje uzasadnienie dla tego rodzaju sposobu uprawiania nauki i jest to nie do przyjęcia. A przecież wedle cytowanego raportu OPI w Polsce opublikowano w latach 2018-2022 ponad 530 tys. prac naukowych, z czego 69% to artykuły.

W tej sytuacji nie dziwi, że zajmowanie się publikowaniem prac naukowych stało się jednym z najbardziej dochodowych biznesów na świecie. Biznes ten „przynosi to, co Smith (2018) nazwał nieprzyzwoicie wysokim zyskiem. Na przykład w 2017 r. firma Elsevier zarobiła 1,8 mld USD przychodów z czasopism przy 37% marży zysku rocznie, a Springer Nature zarobił 1,3 mld USD przy 23% rocznej marży zysku (Aspesi, Allen i in., 2019). Ten model oparty na wysokim zysku opiera się na pracy naukowców, którzy na ogół poświęcają swój czas jako autorzy i recenzenci [i redaktorzy, dodajmy], pracując za darmo (Buranyi, 2017), co wcześniej oszacowano na około 1,9 miliarda dolarów nieodpłatnej pracy rocznie (Logan, 2017)” (Leigh-Ann Butler et al., The oligopoly’s shift to open access: How the big five academic publishers profit from article processing charges, „Quantitative Science Studies”, 4(4), 795). Inne opracowania mówią o jeszcze wyższej rentowności: „Marże zysku brutto sektora publikacji periodycznych wynoszące ponad 70% znacznie przewyższają marże zysku jakiejkolwiek innej branży” (czyli z każdego dolara 70 centów zysku) (S. Macdonald, Emperor’s New Clothes, „Journal of Management Inquiry”, May 2014, 5; a także: D. Harvie et al., What are we to do with feral publishers?, „Organization” 2012, nr 19, 905-914).

Jak widać, problem jest głębszy niż sama ewaluacja, a dotyczy utraty wpływu naukowców na naukę; szczególnie sfera publikacyjna jest poza naszym wpływem i jakąkolwiek kontrolą. Ale nie tylko, bo również dotyczy utraty znacznej części władzy nad nauką przez rządy finansujące ją z funduszy publicznych. Język globalizacji i retoryka mówiąca o konieczności uprawiania nauki światowej zakrywają przykrą prawdę o wyzysku, który się za nimi ukrywa. Nie możemy odmówić udziału w tym świecie, z tego jednak nie wynika, że powinniśmy gorliwie go wspierać i rozszerzać jego logikę. Rzecz jasna, jak pisał Readings, „każda próba zakwestionowania stosowanych wskaźników efektywności jest traktowana jako sprzeciw wobec idei publicznej wiarygodności” (posługuję się polskim przekładem, Uniwersytet w ruinie, 2017, 51). Warto zatem podkreślać, że wolno zrobić pierwsze, nie wyrzekając się drugiego. A nawet trzeba – w imię nauki. Sprzymierzeńcem polskich uniwersytetów w tym dziele powinien być polski rząd, bo jemu powinno zależeć, równie mocno jak badaczom, na tym, by ukrócić przemysł publikacyjny pasożytujący na nauce.

Zapewne byłaby tu również potrzebna inicjatywa UE, ponieważ pojedyncze państwo może okazać się za słabe w zderzeniu z globalnymi koncernami. Innymi słowy, wysokość APC mogłaby zostać wynegocjowana – i obniżona – przez Unię Europejską dla wszystkich badaczy afiliowanych w uczelniach krajów członkowskich.

Wspólne dobro

Na czy zatem polega wspólny interes, którego wyrazem powinna być ewaluacja? Uczelnie hegemoniczne mówią, że ewaluacja nie dość odzwierciedla ich przewagę, a pretendenci, że nie stwarza warunków równej konkurencji. Jedni chcą tworzenia „wysp doskonałości”, inni zrównoważonego rozwoju. Część uważa, że trzeba ścigać się w międzynarodowych rankingach, a część, że raczej zastanawiać nad tym, jak polskie uczelnie realizują interesy rozwojowe polskiego państwa.

Cele te, warto zauważyć, nie muszą być sprzeczne w tak dramatyczny sposób, jak są, a dzieje się tak z tego powodu, że to, czym się zajmujemy, to dzielenie biedy. KRASP alarmował w piśmie z 6 września ubiegłego roku do premiera Tuska, że w roku 2025 zaplanowany wzrost środków na naukę i szkolnictwo wyższe znajduje się poniżej planowanego poziomu inflacji, a łączne nakłady na nasz sektor w relacji do PKB sytuują się na najniższym poziomie w XXI wieku. Co więcej, wzrost nakładów na naukę jest o około 1/3 niższy niż średni wzrost wydatków budżetu ogółem (4,5% do 6,4%). Stosowanie reguł obecnej ewaluacji, czyli dalsze wzmacnianie mechanizmu konkurencyjności, w tej sytuacji – a szybko się ona nie zmieni na lepsze (będziemy zwiększać liczbę czołgów, a nie instytutów badawczych) – byłoby przeciwskuteczne, a nawet niszczycielskie.

Jaki jest zatem ten nasz wspólny interes? Określmy go na poziomie minimalnym, po czym zastanówmy się, czy da się założenia opisujące go zrealizować w obecnym systemie. Co zatem warto zrobić?

Trzeba podtrzymać to, co dobre w systemie obecnym, a są to: ewaluacja w dyscyplinach; wagi przykładane do poszczególnych kryteriów (uprzywilejowanie kryterium publikacyjnego); inicjatywy RID i IDUB – należy zwiększać nakłady oraz liczbę ośrodków objętych tymi programami (skoro nie da polepszyć sytuacji całego sektora, polepszajmy los tych, którzy budzą największą nadzieję).

Musimy zapewnić elementarną stabilność systemu, czyli co najmniej: zapisać w ustawie (jak w przypadku oceny okresowej), że zmiany reguł ewaluacji ustalić wolno jedynie przed okresem, który podlegać będzie ocenie; ustalić podobną regułę dla wykazów czasopism (o ile zgodzimy się, że powinny dalej istnieć): że zmiana obejmująca dany rok dokonuje się przed jego rozpoczęciem. Naukowcy powinni być poinformowani wcześniej, gdzie mają wysyłać prace, a minister mieć pewność, że potężne pieniądze za publikacje nie są marnowane poprzez finansowanie artykułów w czasopismach, które za chwilę wypadną z baz lub stracą punkty w wykazie. Przed okresem objętym ewaluacją podać do wiadomości publicznej pełną metodologię ustalania wartości referencyjnych (najlepiej, żeby była oparta na medianach, powiedzmy: 25% ponad medianę to wartość dla kat. A, 25% poniżej to wartość dla kat. B+). Można przeprowadzać ewaluację za okres 6 lat (co jest dopuszczalną praktyką w innych krajach).

Trzeba uprościć system. Najpierw przeprowadzić szerokie badania, w jaki sposób środowisko naukowe odbiera reguły obecnej ewaluacji, zwłaszcza jak ocenia stopień komplikacji. Z naszych regularnych i prowadzonych od kilku lat spotkań z pracownikami Uniwersytetu Szczecińskiego wynika, że reguły ewaluacji nadal nie są rozumiane i bywają na ogół traktowane jako sztuczny wymysł bez związku z realnym życiem. Na podstawie tych badań przyszłoby zapewne: zmniejszyć liczbę ocenianych osiągnięć (w poprzedniej ewaluacji oceniono około 1 mln osiągnięć oraz wydano ponad 60 tys. decyzji w SEDN) oraz zmniejszyć liczbę uregulowań składających się na system ewaluacji, czyli różnego rodzaju zastrzeżeń, wyjątków, szczególnych przypadków (co zmniejszy liczbę nadużyć).

Warto gruntownie przebudować III kryterium. Trzeba by przyjąć do wiadomości, że: społeczny wpływ większości dyscyplin naukowych jest zwykle pośredni i odroczony, a co więcej – bardzo specyficzny. Obecnie konstrukcja tego kryterium jest niejako strukturalnie narażona na regres w nieskończoność, wskutek czego trudno jest określić miejsce wystąpienia wpływu (np. jednostka wskazuje w opisie wpływu wdrożenie zmian w politykach samorządów terytorialnych w zakresie zwiększania aktywności seniorów – ewaluator odrzuca dowody wpływu, wskazując, że uczelnia powinna dowieść, że na obszarze wprowadzania polityk wzrosła sprzedaż sprzętu sportowego dla seniorów. Albo: na podstawie badań zmieniono ustawę – a ewaluator kwestionuje opis, pytając, jakie skutki przyniosła zmiana ustawy, na kogo wpłynęła i czy aby na pewno wpłynęła itd., itp.). Skutkiem tego oceny w kryterium III wydają się najsłabszym ogniwem ewaluacji, bo najbardziej narażonym na arbitralność i dowolność oceny. Być może należałoby opracować nieco odmienne zasady oceny III kryterium w zależności od grup nauk (np. w naukach inżynieryjnych i technicznych zamiast opisów wpływu być może lepiej byłoby przedstawiać najważniejsze patenty; w naukach humanistycznych zamiast opisów wpływu i tzw. dowodów przedstawiać dane na temat publicystki kulturalnej i krytyki artystycznej).

Do tego wszystkiego chcielibyśmy dodać jeszcze trzy uwagi. Po pierwsze, ruch w stronę zwiększenia udziału aspektu jakościowego oceny wydaje się nieuchronny, choć grozi ryzykiem zastąpienia złego systemu jeszcze gorszym. Porażka III kryterium niestety nie rokuje dobrze poważniejszym zmianom modelu ewaluacji. Nie tylko w swym aspekcie ilościowym, ale też i jakościowym wykazuje on znaczące wady.

Po drugie, w takiej sytuacji najważniejszym wyzwaniem staje się radykalne zwiększenie stopnia przejrzystości i jawności wszystkich procedur oceny w systemie nauki. Należy eliminować oceny podwójnie ślepe, promować zamiast tego oceny ślepe w jedną stronę (recenzowany wie, kto recenzował, recenzujący nie wie, kogo recenzuje) lub całkowicie jawne (np. w NCN recenzje składanych projektów powinny być podpisywane, podobnie oceny III kryterium ewaluacyjnego, recenzje w czasopismach naukowych itd.). Nie wiadomo, czy to wystarczy, od czegoś jednak trzeba zacząć.

Po trzecie, dla dobra ewaluacji korzystnie byłoby ponadto dokonać kilku zmian w ustawie, np. wprowadzić stan spoczynku dla profesorów tytularnych (co wobec obecnej skali transferów socjalnych byłoby wydatkiem niewiele znaczącym a fundamentalnym dla procesu odmładzania kadry naukowej).

Jakość zamiast ilości?

Oczywiście, do tego należałoby dodać zmiany, o których się mówi od dawna, tj. m.in. uniemożliwić manipulacje przy liczbie N; wprowadzić współczynnik realnie podwajający wymagania od instytutów badawczych oraz pracowników na etatach badawczych; nie uwzględniać publikacji z numerów specjalnych.

Czy do wprowadzenia postulowanych w tym artykule zmian potrzebne byłoby wypracowanie nowego modelu ewaluacji? Niekoniecznie. Docelowo jednak być może potrzebujemy innego modelu, opartego na ocenie jakościowej. Można by wtedy zlikwidować wykazy czasopism, poddawać ocenie eksperckiej stosunkowo niewielką liczbę publikacji dla jednej dyscypliny w jednostce, a tym samym ograniczyć pole działania międzynarodowych koncernów publikacyjnych.

Wróć