logo
FA 4/2023 życie naukowe

Zbigniew Zembaty, Tomasz Lewiński

O parametrycznej i eksperckiej ocenie pracy naukowej

O parametrycznej i eksperckiej ocenie pracy naukowej 1

Rys. Sławomir Makal

Przyjęte w Polsce kryterium oceny artykułów naukowych poprzez punkty przypisane czasopismom i oparte na wskaźnikach bibliometrycznych, dobre w XX wieku, zupełnie nie wytrzymuje próby czasu i w XXI wieku jest już tylko cieniem dawnej, w miarę zobiektywizowanej oceny. Co więcej, jak wskazują najnowsze światowe badania naukometryczne, takie podejście może nie tylko prowadzić na manowce, ale być nawet szkodliwe w promocji nowości i w poprawnym rozwoju nauki.

Większość pracowników naukowych i nauczycieli akademickich ma dobrze ugruntowaną opinię na temat jakości aktualnej, parametrycznej oceny instytucji naukowych. W większości bardzo krytyczną. Zasadniczą przyczyną jest tu fakt, że system w miarę jednolity nie jest w stanie zadowolić tak zróżnicowanego grona ocenianych instytucji i osób.

Jak wiadomo, dyscypliny naukowe były ocenianie w trzech kryteriach. Kryterium I dotyczyło poziomu naukowego lub artystycznego związanego głównie z publikacją artykułów naukowych, monografii, redakcji monografii i autorstwa rozdziałów w monografiach, a także przyznanych patentów na wynalazki. Kryterium II było związane z efektami finansowymi badań naukowych i prac rozwojowych mierzonymi na podstawie wysokości środków pozyskanych na projekty badawcze w ramach konkursów organizowanych przez instytucje unijne, zagraniczne, NCBR, NCN i NPRH oraz ich komercjalizacją i współpracą gospodarczą. Kryterium III dotyczyło wpływu działalności naukowej na funkcjonowanie społeczeństwa i gospodarki poprzez analizę związku między badaniami a funkcjonowaniem lokalnej administracji, ochrony zdrowia, kultury itp.

Jednak najważniejszym elementem tej oceny, wzbudzającym najwięcej emocji, jest ocena jakości publikacji. W niniejszym artykule skupiamy się na analizie tego kryterium pod kątem ustalenia, w jakim stopniu wiarygodna jest teza, że analizę publikacji wyników badań naukowych można sprowadzić do parametrycznej oceny „prestiżu” czasopisma, w którym badania opublikowano jako efekt jego tzw. bilbliometrycznych wskaźników. Przez „prestiż” rozumiemy tu połączony wpływ czasopisma na światową naukę oraz niełatwe do zmierzenia wymagania nowatorskości wyników publikowanego artykułu stwarzane przez redaktora i dobranych przez niego recenzentów.

Jak wiadomo, wyniki parametryzacji za lata 2017-2021 prowadzonej dla lat 2019-2021 w nowy sposób, zgodnie z tzw. Konstytucją dla Nauki, doprowadziły do znaczącego „spłaszczenia” końcowych rezultatów parametryzacji mimo istotnego zróżnicowania punktacji czasopism (Kulczycki E., Jemielniak D., Nie hukiem, ale skomleniem, „Nauka” 4/2022). Problem ten przenosi się także z oceny instytucji naukowych na oceny wniosków awansowych w komisjach RDN, szczególnie habilitacyjnych, a także na polskie agencje grantowe. Sprawa decyzji odnośnie do sposobów ocen postępu i nowatorstwa w nauce jest zatem warta poważnej dyskusji i obserwowania aktualnych światowych trendów.

„Lista filadelfijska”, początki ocen bibliometrycznych i parametrycznych w Polsce

Mimo iż za pierwsze poważne czasopismo naukowe można uznać „Journal of Royal Society”, to jednak początek największego rozkwitu klasycznej formuły czasopism naukowych działających w systemie peer reviewing przypada na lata 60. XX wieku. W Polsce jeszcze wtedy prym wiodły tzw. czasopisma PAN-owskie, w których system recenzji był na ogół twardy, choć ograniczony do osób z polskiego kręgu badaczy, co jest zrozumiałe, gdyż zdecydowana większość tych czasopism ukazywała się w języku polskim. W postępowaniach habilitacyjnych, mimo iż ograniczone były na ogół do środowisk naukowych skupionych wokół rad naukowych z określonymi uprawnieniami (wsparte na prawie weta Centralnej Komisji), wysoko oceniane były publikacje czasopism PAN. Do rzadkości należało publikowanie w zagranicznych periodykach. Podkreślić jednak należy, że bywały dziedziny badań, w których praktyka wysyłania wyników do czasopism zagranicznych była częstsza. Zdarzało się i tak, że polskie badania niespecjalnie ustępowały wynikom światowych. Na przykład zanim do praktyki inżynierskiej włączone zostały maszyny cyfrowe, wyniki analityczne polskich badaczy (np. szkoły Witolda Nowackiego w obszarze mechaniki budowli lub szkoły Wacława Olszaka w zakresie teorii plastyczności) były powszechnie uznawane, do tego stopnia, że jeszcze na początku lat 70. w wielu czytelniach światowych uczelni, np. w Berkeley University oraz na Politechnice w Mediolanie, na półkach bibliotek leżało wydawane w języku polskim „Archiwum Inżynierii Lądowej”. W miarę upływu czasu czasopisma PAN-owskie przechodziły na język angielski, a niektóre z nich nawet dostawały się do obiegu Science Citation Index, czyli na tzw. listę filadelfijską, listę cytowań artykułów prowadzoną przez Instytut Filadelfijski.

Należy dodać, że w owym czasie wejście czasopisma do obiegu Science Citation Index poprzedzone było skrupulatną analizą treści artykułów, ich poziomu, składu kolegium redakcyjnego itp. Najpierw czasopismo dostawało się na rozszerzoną listę Science Citation Index Expanded. Dopiero po kilku latach przechodziło na zwyczajną, węższą listę Science Citation Index. Umieszczenie publikacji w którymś z prestiżowych periodyków było dużym osiągnięciem, szczególnie dla badaczy z Polski. Nic dziwnego zatem, że jeszcze w latach 80. i 90. kilka takich publikacji zestawionych w formie monotematycznego cyklu wystarczało, aby można było zrobić awans habilitacyjny. Często recenzenci dorobku nie musieli szczególnie przenikliwie „prześwietlać” dorobku habilitanta, zakładając, w większości wypadków najzupełniej słusznie, że zrobili to recenzenci wskazani przez redaktorów czasopism. Ograniczenie objętości szpalt drukowanego czasopisma powodowało, że na jeden opublikowany artykuł przypadało 2-3, a często dużo więcej odrzucanych. Odrzucanie artykułów często nie wynikało z faktu, że przysyłane wyniki były błędne, ale z tego, że zdaniem recenzenta były banalne, nieciekawe lub nudne. Do połowy lat 90., czyli do czasu upowszechnienia sieci World Wide Web, taka ostra selekcja powodowała, że cykl publikacji „journalowych” w uznanych na świecie czasopismach (indeksowanych przez Science Citation Index), a zgłaszany jako „dzieło habilitacyjne”, z dużym prawdopodobieństwem spełniał wysokie wymagania oryginalności wyników.

Wielka inflacja publikacyjna i jej wpływ na rozwój nauki

Na początku rozwoju Internetu, czyli już od roku 1995, pojawił się pomysł, aby czasopisma miały swoje strony internetowe, na których można by bezpośrednio odczytywać artykuły naukowe. Jednocześnie Instytut Filadelfijski razem z Thompson Scientific dołączył do Reuters Corporation, w której uznano, że zjawisko rozszerzania bazy czasopism ma korzystne właściwości, poprawiając statystyki wskaźników bibliometrycznych, szczególnie dla wąskich dziedzin badawczych. Ostre warunki wejścia czasopisma do Science Citation Index stawały się coraz łagodniejsze, pojawił się indeks konferencji Web of Science itp., a także konkurencja w postaci Scopus.

Liczba nowo powstających czasopism, niekrępowanych już wymogiem drukowania, przyrastała w ogromnym tempie. Wszystkie te czasopisma potrzebowały dobrych recenzentów, o których było coraz trudniej. Wymóg niebanalności i nowatorstwa wyniku zaczął być zastępowany wymogiem poprawności wyników. Kluczowym momentem w tym rozwoju bazy publikacyjnej było pojawienie się w 2006 roku czasopisma non-profit „PLoS One” (Public Library of Sciences), które przecierało szlaki wolnego dostępu do artykułów i w roku 2010 znalazło się już w Science Citation Index. Wkrótce świat naukowy został zalany czasopismami „open access”, od bardziej wymagających, poprzez mniej wymagające, aż po czasopisma wręcz oszukańcze, tzw. predatory journals. Niestety często granica między predatory journals i uczciwymi czasopismami, choć o zmniejszonych wymaganiach, była rozmyta. Od początku było jasne, że tzw. IF (Impact Factor), będący miarą liczby cytowań artykułów danego czasopisma, bardzo mocno zależy od „ruchliwości” cytowań w danej dyscyplinie badawczej, a nawet poddyscyplinie. Wobec tego analizy wykorzystujące IF jako miary „prestiżu” czasopism zaczęto ograniczać do danej dyscypliny. Jednak w niedługim czasie pojawiły się tzw. megajournale łączące różnorodne dyscypliny. Artykuł „skazany” na niski IF, gdy był wysłany do czasopisma w swojej wąskiej, specyficznej dziedzinie, zyskiwał na IF w megajournalu, w którym oprócz np. inżynierii mechanicznej publikowano także wyniki ze znanej z dużej liczby cytowań chemii.

Już czasopismo „PLoS One” spełniało cechy megajournala pokrywającego maksymalny możliwy obszar naukowy. Do grona nowych czasopism otwartego dostępu dołączyły inne organizacje, w tym ChRL z ogromnym „rynkiem naukowym” i koncernem MDPI. Nie dość, że czasopisma MDPI ściągnęły duże liczby cytowań, to jednocześnie wprowadziły na rynek publikacyjny czasopisma o cechach typowych, „samonapędzających” się megajournali, jak np. „Energies”, „Materials” lub „Sensors”. Pandemia lat 2020-2022 dopełniła dzieła inflacji. Niedoszli uczestnicy światowych konferencji naukowych przenieśli znaczące środki wyjazdowe na koszty publikacji w czasopismach open access, często o obniżonych kryteriach dostępu. Przepływ publikacji do płatnych czasopism otwartego dostępu pojawił się także w wydawnictwie Elsevier. Niektóre czasopisma zakładały dodatkowe, płatne już wersje o obniżonych kryteriach, w których odrzucony artykuł mógł już być przyjęty do publikacji po wpłaceniu znaczącej kwoty. Przykładem może być czasopismo Elsevier „Case Studies in Construction Materials” (100 p. MNiSW, SCIMAGO = 36) pobierające 1800$ za publikację. Gdy czasopismo to się pojawiło, było reklamowane na stronie internetowej swojego poważniejszego odpowiednika „Engineering Structures” jako czasopismo drugiego wyboru dla autorów prac odrzuconych przez „Engineering Structures”.

W roku 2021 w prestiżowym amerykańskim „Proceedings of National Academy of Sciences” (PNAS) ukazał się artykuł Johana S. Chu i Jamesa A. Evansa Slowed canonical progress in large fields of science wskazujący na długofalowe, negatywne skutki niekontrolowanego przyrostu liczby publikacji (por. także raport Karen White, Publications Output: U.S. Trends and International Comparisons, Report, Science & Engineering Indicators, 2021). Chu i Evans przeanalizowali ogromną liczbę ponad 90 milionów artykułów opublikowanych w latach 1960-2014 i 1,8 mld cytowań w 241 obszarach tematycznych, dowodząc bardzo niepokojącej tezy, że w miarę znaczącego przyrostu liczby artykułów naukowych cytowania przyrastają głównie artykułom już uznanym, utrudniając przebijanie się nowatorskich idei oraz nowych wyników. Zasadniczym efektem „kultu” bibliometrii wśród badaczy, szczególnie tych młodych, okazało się, zgodnie z wynikami badań Chu i Evansa, „skostnienie” systemu cytowań mnożącego ponad rozsądną miarę cytowania istniejących i uznanych wyników naukowych. We wnioskach Chu i Evans ostrzegają agencje grantowe i stypendialne przed nadużywaniem metodologii bibliometrycznej, która niedługo sama w sobie może stać się hamulcem postępu. Petryfikacja istniejącej wiedzy i blokowanie nowych idei to dokładnie odwrotny trend od oczekiwań polskich zwolenników listy światowych czasopism, gdy podejście to było promowane w Polsce na początku lat 90. XX wieku. Wtedy to dumnie zapowiadano, że w ocenie wniosków awansowych oraz polskich instytucji naukowych należy odejść od publikacji artykułów naukowych i monografii habilitacyjnych w lokalnych polskich wydawnictwach oraz wydawanych w Polsce tzw. książek profesorskich o nikłym oddźwięku w nauce światowej.

Polska parametryzacja z lat 2017-2021

Parametryzacja z lat 2017-2021 opiera się na punktacji czasopism przygotowanej dla różnych dziedzin i wykorzystującej tzw. CiteScore, indeks cytowalności czasopism przy użyciu bazy danych ScienceDirect – Scopus. W większości przypadków indeks ten dobrze odzwierciedla tendencję do cytowania danego autora. Ma jednak jedną bardzo istotną wadę. Jak wiadomo, nie każde cytowanie jest równie znaczące. Cytowanie pochodzące z artykułu z małego, mniej znanego czasopisma ma inną rangę niż cytowanie z któregoś z najbardziej znanych i prestiżowych czasopism.

Wady tej pozbawiony jest bardzo dobry indeks Scimago, wyliczany na podstawie „ważonych” cytowań zależnych od IF cytującego czasopisma. I rzeczywiście indeksy Scimago dużo lepiej oddają „prestiż” czasopisma niż CiteScore. Zupełnie niewytłumaczalne jest to, dlaczego twórcy listy czasopism MNiSW zamiast indeksu Scimago wybrali indeks CiteScore. Scimago nie jest idealny, ale na pewno lepszy od CiteScore. Można to zilustrować następującym przykładem. Dla prestiżowego czasopisma „Bulletin of the Seismological Society of America” (BSSA) indeks CiteScore pokazuje niższą wartość niż dla mniej prestiżowego, ale bardziej „ruchliwego” w cytowaniach czasopisma „Seismogical Research Letters” (SRL). Efekt ten jest odzwierciedlony w liście czasopism MNiSW, na której poważniejsze BSSA ma 100p, a SRL 140p. Teoretycznie Komisja Czasopism powinna była korygować takie oczywiste błędy. Mimo to podobnych przykładów można znaleźć więcej. W tym sensie oparcie listy publikacji na indeksie Scimago znacznie poprawiłoby wiarygodność punktacji Listy Czasopism MNiSW.

Czy bibliometria może wystarczyć w ocenie publikacji?

Ostatnio ocena jakości publikacji oparta głównie na współczynnikach impact factor czasopism, w których ukazują się te artykuły, jest mocno krytykowana, nawet względem tych bardzo uznanych czasopism naukowych. Istnieją wyniki poważnych, choć paradoksalnie wyglądających badań, wskazujące na to, że artykuły częściej odrzucane przez czasopisma o najwyższych IF poddawane są bardziej skrupulatnym, wielokrotnym recenzjom, i gdy po kilku niepowodzeniach w końcu przechodzą do czasopism niższych w hierarchiach bibliometrycznych, to mają już zdecydowanie wyższy poziom. Powstaje zatem zasadne pytanie, na ile można jeszcze w ogóle polegać na indeksach bibliometrycznych w ocenie jakości publikacji.

Jak wiadomo lista czasopism MNiSzW wyprowadzona głównie zp. indeksu CiteScore i poddawana corocznej aktualizacji podlegała dodatkowo naciskom, najpierw wśród członków zespołów czasopism przy MNiSzW, a potem, także ze strony Ministra. W obydwu przypadkach promowano albo branżowe priorytety członków Komisji Czasopism albo specyficzną politykę naukową Ministerstwa, polskie czasopisma itp. Nie dyskutując tu z zaletami i wadami tych tendencji można próbować ocenić skutki przyjęcia CiteScore oraz wspomnianych modyfikacji listy MNiSzW. Gdy dokładniej przyjrzeć się czasopismom z zakresu 100, 140, 200p to łatwo zauważyć, że wśród czasopism 100p znajdziemy bardzo trudne, uznane światowe czasopisma jak i mało znane polskie czasopisma lub zagraniczne czasopisma z lokalnego obiegu. W grupie czasopism 140p mamy np. znane megajournale MDPI o znacznie obniżonych wymaganiach oryginalności wyników (Energies, Materials) a wśród niektórych czasopism 200p także znajdują się tytuły, których prestiż i poziom jest podobny do wielu czasopism 100p.

Czy zatem przejście w punktacji czasopism z indeksu CiteScore na Scimago znacząco zmieniłoby tą sytuację prowadząc do bardziej zobiektywizowanej listy czasopism? Z dużą dozą prawdopodobieństwa można stwierdzić, że w wypadku większości czasopism tak by się stało. Każdy czytelnik może to sprawdzić wpisując na stronie Internetowej Scimago (https://www.scimagojr.com/) kilka dobrze znanych sobie tytułów czasopism i porównać punktację Scimago z prywatnym odczuciem prestiżu tych czasopism. Ciekawym przykładem działania indeksu Scimago jest ocena czasopisma „Advanced Sciences” (Wiley), którego IF=17.52 (dane za rok 2021) umieścił w naszej ministerialnej punktacji praktycznie automatycznie w kategorii czasopism 200p. Tej imponującej wartości Impact Factor towarzyszy bardzo już umiarkowana wielkość Scimago=128, pasująca raczej do czasopism 100 lub 140p. Gdy zastosujemy indeks Scimago do innych megajournali, to mimo wszystko zauważamy, że tak oczekiwanego pełnego obiektywizmu w ocenie prestiżu indeks ten jednak nie pozwala osiągnąć. Widać to szczególnie względem megajournali MDPI. Aby się przekonać o niższych wymaganiach tych czasopism wystarczy przejrzeć polskie publikacje opublikowane w 140p journalach MDPI i zauważyć, że obok zupełnie dobrych, a nawet bardzo dobrych artykułów można tam znaleźć nieproporcjonalnie wiele pod każdym względem słabych publikacji. Może zatem liczba artykułów 200p poprawnie odzwierciedliłaby poziom wyników naukowych instytucji i pracowników naukowo-dydaktycznych. W tym miejscu pojawiają się jednak dwie przeszkody.

Po pierwsze, w niektórych dyscyplinach brak jest czasopism 200 p. będących w zasięgu wszystkich autorów pracujących we wszystkich poddyscyplinach. Tak jest np. w znanej autorom niniejszego artykułu inżynierii lądowej, nie ma tu ani jednego czasopisma 200 p. w całości należącego do tejże inżynierii lądowej (jedyne 200 p. czasopismo „Cement and Concrete Research” należy w zasadzie do inżynierii materiałowej i może być miejscem publikacji dla niewielkiej części badaczy z inżynierii lądowej).

Po drugie, wystarczy poczytać od czasu do czasu Retraction Watch, aby zauważyć, że fatalne praktyki, łącznie z plagiatami i innymi oszustwami, dotykają wszystkich dziedzin i wszystkich czasopism, nawet „topowych”, wcale nie omijając czasopism uznanych przez MNiSW jako 200-punktowe. Skala upadku renomy „topowych” czasopism jest miejscami szokująca.

Powyższe rozumowanie prowadzi do nieuchronnego wniosku, że może lepiej w ocenie instytucji naukowych powrócić do dawnych, opisowych recenzji, które dzisiaj nazywa się opiniami eksperckimi. Przeciwnicy takiego podejścia wskazują, że takie oceny będą obarczone znaczącym subiektywizmem. Ocenianie osiągnięć instytucji naukowych mogłoby się wtedy stać polem bitwy polskich szkół naukowych, uczelni, wydziałów itp.

Czy jednak musi tak być? Pozostaje bowiem możliwość mieszanej oceny parametryczno-eksperckiej przy wykorzystaniu zagranicznych recenzentów. Z jednej strony wstępnej ocenie poddawano by artykuły z przypisaną liczbą punktów zależnych np. od współczynnika Scimago, z drugiej można by ocenie eksperckiej poddawać serie publikacji danej jednostki naukowej, podnosząc lub obniżając oceny w ramach pewnych widełek. Mogłoby to pozwolić na bardziej prawidłową ocenę słabszych publikacji w czasopismach o większej liczbie punktów oraz dobrych publikacji w czasopismach o niższej liczbie punktów. Co więcej, niektórzy autorzy potrafią umiejętnie dzielić swój dorobek publikacyjny na fragmenty obejmujące elementy nowości w stopniu cząstkowym, np. po 30% nowego materiału w kilku kolejnych publikacjach. Inni autorzy mniej roztropnie raz na dwa lata zgłaszają pojedynczą publikację ze wszystkimi swoimi nowymi wynikami. Bez przeczytania kilku publikacji przez eksperta-recenzenta nie da się w żaden sposób tego ocenić. Mieszane oceny są stosowane w parametryzacjach w różnych krajach (np. w Wielkiej Brytanii, Norwegii lub Czechach). Najczęściej polega to po prostu na rozsyłaniu artykułów do wtórnych ocen zagranicznych recenzentów.

Odrębnym problemem jest kwestia podejścia do oceny publikacji o dużej liczbie współautorów, które niekorzystnie wpływają na indeksy bibliometryczne (por. np. artykuł dotyczący publikacji wieloautorskich z nauk medycznych: Masic I., Jankovic S.M., Inflated Co-authorship Introduces Bias to Current Scientometric Indices). Tu nie ma prostych rozwiązań, szczególnie przy ocenach osiągnięć awansowych. Gdy idzie o ocenę instytucji, wydaje się jednak, że jedyne rozsądne podejście to uwzględnianie publikacji wyłącznie w proporcji do liczby współautorów z ocenianej jednostki naukowej. Wszelkie inne, wielokrotne uwzględnianie wkładu współautorów, w tym zagranicznych, sprzyja jedynie mnożeniu obcych osiągnięć w ocenianej jednostce.

Wnioski

Nawet pobieżne analizy kierunków rozwoju światowej nauki przez ostatnie 20-30 lat wskazują na nieuchronną konieczność wielu przewartościowań i rewolucyjnych zmian. Zanim wielki okręt zwany Nauka Polska osiądzie na mieliźnie gigantycznej inflacji światowych publikacji, jest szansa na choćby częściowe zminimalizowanie tych, chyba nieuniknionych, ubocznych skutków masowego rozwoju nauki, technologii i globalizacji.

Wszystko wskazuje jednak na to, że aktualne „skostniałe” podejście do polskiej parametryzacji nauki oparte na sztywnych wskaźnikach bibliometrycznych, a za nią do oceny osiągnięć awansowych, propozycji grantowych itp. nie ułatwi polskim naukowcom przejścia tych trudnych sytuacji, brnąc w jeszcze większe kłopoty metodologiczne niż agencje oceniające naukę w innych krajach.

Celowe byłoby zatem, wzorując się na parametryzacji z innych krajów, przeprowadzenie w naszym kraju oceny instytucji naukowych poprzez oceny mieszane ekspercko-parametryczne. Pierwszy współautor niniejszego tekstu ma kilkuletnie doświadczenie udziału w takiej mieszanej parametryzacji instytucji naukowych Republiki Czeskiej.

A może jeszcze lepiej byłoby zastosować dużo bardziej radykalne podejście, oceniając instytucje naukowe jedynie w dwóch kryteriach: jednostek uprawiających naukę w stopniu wystarczającym (jedna kategoria zamiast A+, A, B+) i tam skierować uśrednione finansowanie podstawowej działalności naukowej, oraz jednostek ocenianych w stopniu niewystarczającym (C, B), którym finasowanie nauki się nie należy. Wtedy jednak nie powinno się stosować sztywnych procentowych udziałów liczby jednostek, a jedynie rozsądną ocenę procentu pracowników o znaczącej własnej aktywności naukowej. Stosowanie uproszczonej oceny jednostek powinno przynieść znaczące oszczędności czasu i pieniędzy, które mogą zostać przekierowane do transparentnych i uczciwie działających agencji grantowych.

Prof. dr hab. inż. Zbigniew Zembaty, Wydział Budownictwa i Architektury Politechniki OpolskiejProf. dr hab. inż. Tomasz Lewiński, Wydział Inżynierii Lądowej Politechniki Warszawskiej

Wróć