logo
FA 5/2022 życie akademickie

Marek Misiak

Podzielmy to na trzy połowy

Podzielmy to na trzy połowy 1

Rys. Sławomir Makal

Niespełnienie wymogów co do poprawności przeprowadzenia i zaprezentowania analiz statystycznych bywa przyczyną wstrzymywania publikacji artykułu, który przeszedł już proces peer review. Kontrolę statystyczną przeprowadza się z reguły po recenzjach, aby nie weryfikować pod tym kątem tekstów, które nie zostaną potem opublikowane z uwagi na niewystarczający poziom merytoryczny.

Od końca XIX wieku wielu myślicieli zwracało uwagę, że żyjemy w czasach postępującej specjalizacji wykształcenia, a specjalności stają się coraz węższe. W nauce jest to bardzo wyraźnie widoczne, lecz jednocześnie rozwój zarówno wiedzy, jak i techniki sprawił, że badacze muszą znać się na kwestiach bardzo odległych od ich zainteresowań, jeśli chcą zawodowo uprawiać naukę. Na łamach „Forum Akademickiego” często jest mowa o pisaniu wniosków grantowych jako osobnej sztuce, którą muszą opanować polscy naukowcy (na Zachodzie pracownicy nauki w większym stopniu mogą liczyć na wsparcie wyspecjalizowanych komórek na uczelniach i w instytucjach badawczych). Badacz, który chce promować siebie lub swoją pracę, musi znać się na mediach społecznościowych czy CMS (content management systems) bardziej niż ktoś, kto po prostu co jakiś czas zamieszcza post na Facebooku. Prowadzenie bloga czy bardziej profesjonalnego profilu w mediach społecznościowych wymaga już pewnej wiedzy i umiejętności, nie wspominając o wykorzystywaniu oferowanych przez te media narzędziach (płatnych i darmowych), umożliwiających wyróżnienie się w tłumie innych badaczy. To jednak wszystko umiejętności bardzo praktyczne, które można opanować bez wiedzy, jak coś naprawdę działa, na zasadzie wdrożenia się w pewne instrumenty i procedury.

Problem pojawia się wtedy, gdy uprawiając jedną dziedzinę nauki, trzeba posłużyć się językiem drugiej. W ciągu ostatnich kilku lat w wielu czasopismach naukowych – także medycznych, przy których pracuję najczęściej – zaczęto zwracać baczniejszą uwagę na stosowanie metod statystycznych w nadsyłanych publikacjach. Problem może leżeć zarówno w samym sposobie przeprowadzenia analiz (rzadziej), jak i w sposobie ich opisania (częściej). Niektóre periodyki, nie tylko te najbardziej renomowane, współpracują ze specjalistami określanymi mianem redaktorów, recenzentów lub weryfikatorów statystycznych, gdyż profesjonalnej kontroli artykułów pod tym kątem na ogół nie jest w stanie wykonać ani żaden z redaktorów, ani recenzenci merytoryczni (może z wyjątkiem niektórych czasopism matematycznych, ale i tam specjalizacja postępuje). Co zaskakujące, to właśnie niespełnienie wymogów co do poprawności przeprowadzenia i zaprezentowania analiz statystycznych bywa przyczyną wstrzymywania publikacji artykułu, który przeszedł już proces peer review. Kontrolę statystyczną przeprowadza się z reguły po recenzjach, aby nie weryfikować pod tym kątem tekstów, które nie zostaną potem opublikowane z uwagi na niewystarczający poziom merytoryczny.

Naprawdę zły objaw

Jeśli autorzy sami zaprosili do współpracy statystyka albo naprawdę znają się na narzędziach statystycznych i są gotowi bronić swoich racji, redaktorzy statystyczni są temu tylko i wyłącznie radzi. Ma wówczas miejsce spór między specjalistami i obie (podkreślam) strony mogą dowiedzieć się czegoś nowego. Redaktor statystyczny o doktrynerskim podejściu słabo wypełniałby swoją rolę i nieraz byłem już świadkiem sytuacji, że dawali się przekonać do zastosowanych metod analizy wyników czy prezentacji danych. Najbardziej frustrująca dla obu stron, redaktora i autora, jest natomiast sytuacja, gdy autor po prostu nie wie, jak ma poprawić wskazane przez redaktora statystycznego fragmenty, ba, nawet nie rozumie wskazówek. Co więcej – i piszę o tym z niesłabnącym, smutnym zdziwieniem – trafiają się autorzy nierozumiejący, w jaki sposób taki element jak budzące wątpliwości analizy statystyczne może wstrzymywać publikację. Nie umieć prawidłowo przeprowadzić takich analiz lub odpowiednio ich zaprezentować to jedno, ale nie rozumieć znaczenia tego aspektu pracy w ogólniejszym sensie to już naprawdę zły objaw. Szczególnie problematyczne bywają wykresy i grafy. Zdarzyło się kilka razy, że autorzy pytali mnie, czy ktoś w redakcji nie mógłby narysować wykresów za nich, gdyż po prostu nie wiedzą, jak poprawić je zgodnie z naszymi wytycznymi. Żadna z redakcji pism naukowych, które znam, nie świadczy takich usług, artykuły nadsyłane do czasopism muszą być kompletne i gotowe, gdyż zadaniem zespołu redakcyjnego jest je redagować, a nie uzupełniać (np. poprzez usługi tłumaczeniowe, statystyczne lub inne).

Odrębną kwestią jest sam sposób prezentacji danych statystycznych w artykule. Ważna jest umiejętność dokonania pewnej selekcji – skromnemu objętościowo tekstowi nie może towarzyszyć kilkanaście małych tabel i drugie tyle wykresów. Łatwość generowania wykresów i grafów w programach takich jak Statistica czy GraphPad zdaje się sprawiać, że niektórzy badacze nie potrafią oprzeć się pokusie prezentacji wszystkiego w taki sposób. Nie chodzi tu bynajmniej o jakiś arbitralnie przyjęty stosunek objętości tekstu do innych elementów manuskryptu, ale o to, że czytelnicy mogą łatwo zagubić się w takiej mnogości stłoczonych na niewielkiej powierzchni danych i nie wychwycić tego co ważne. Będzie to tym trudniejsze, że przy takiej liczbie tabel i rycin będą się one znajdować daleko od miejsca w tekście, gdzie są przywoływane. Warto wówczas wybrać najważniejsze dane, a resztę umieścić w repozytorium, w artykule znajdzie się wówczas informacja, gdzie można znaleźć pozostałe materiały (np. DOI całego pakietu) i jakie konkretnie pliki są dostępne we wskazanym miejscu. Zainteresowany odbiorca będzie mógł wówczas prześledzić cały tok analizy, natomiast każdy czytelnik od razu wychwycić, co jest szczególnie istotne.

Przechodząc do konkretów: najważniejszym, zdaniem statystyków, mankamentem artykułów naukowych zawierających analizy statystyczne jest niewłaściwe posługiwanie się wartością p (tzw. istotnością statystyczną, ang. p-value – probability value). Jest to narzędzie służące jedynie do oceny wartości danego spostrzeżenia (np. korelacji) z punktu widzenia statystyki i świadczy o wartości dowodowej danych jedynie pośrednio. Błędna interpretacja wartości p jest w nauce bardzo częsta.

Wartość p jest wiarygodnym wskaźnikiem dopiero wtedy, gdy spełnione są założenia testów, co powinno być wykazywane w publikacji. Każda wartość p powinna być podawana (w tekście albo w tabelach lub ilustracjach, do których tekst się odwołuje) z nazwą testu oraz ze statystykami, z których wynika, czyli na ogół z liczbą stopni swobody (df – ang. degrees of freedom) i wartością testową. Co więcej, ponieważ wartość p jest zależna od wielkości próby (liczby replikacji), nacisk w artykułach powinien być kładziony nie tylko na to, że jest ona statystycznie istotna. Ważne jest przecież to, jakie znaczenie, np. kliniczne, ma dana obserwacja uwiarygodniona za pomocą statystycznych testów. Czy na przykład korelacja opisana współczynnikiem r = 0,1 (jej p może być niższe niż 0,01, gdy wielkość próby jest większa niż 1000) jest rzeczywiście ważna dla wyjaśnienia danego procesu lub zjawiska? Powyższe oznacza przecież tylko tyle, że owszem znaleźliśmy korelację, co do której realności możemy mieć spore zaufanie (p < 0,01), ale r = 0,1 oznacza, że użyta w tej korelacji zmienna objaśnia tylko 1% (r2 wyrażone w procentach) zmienności, którą próbujemy objaśniać. Należy też koniecznie pokazywać miary dopasowania danego modelu (goodness-of-fit) oraz siłę wpływu (wraz z przedziałami ufności) przy analizie różnic lub w modelach regresji. Sama wartość p danego predyktora (zmiennej objaśniającej) to za mało, m.in. dlatego, że zależy od wielkości próby.

Istotne czy nieistotne

Wartość p trzeba podawać dokładnie, jako liczbę (np. 0,0036), a nie jako wyrażenie (np. p < 0,01), i to także wtedy, gdy jest ona większa od przyjętej granicy istotności statystycznej (p > 0,05). Powody tego są dwa. Po pierwsze, liczba 0,05 jest arbitralnie (choć powszechnie) przyjmowana jako wartość progowa odrzucania hipotezy zerowej. Po drugie, dokładna wartość p jest szczególnie ważna przy metaanalizach, ponieważ jest ona tam wymagana. Obecnie wzmaga się krytyka traktowania wartości p jako narzędzia dzielącego wyniki na „istotne” oraz na „nieistotne”.

Ważnym problemem i częstym niedostatkiem opublikowanych już artykułów jest zbyt ogólnikowy opis metod użytych w analizach statystycznych oraz niekompletne raportowanie wyników. Trzeba pamiętać, że jedną z żelaznych zasad komunikowania wyników badań naukowych jest czynienie tego w taki sposób, który umożliwi każdemu dokładne powtórzenie całego procesu badawczego, tj. począwszy od metod zebrania danych, a skończywszy na sposobie testowania hipotez statystycznych oraz na prezentowaniu wyników. Braki w tym zakresie można zilustrować dwoma przykładami: a) liczebnością próby oraz b) opisem regresji wielokrotnej. Przy porównywaniu grup pod względem wielu cech nie wystarczy podanie ogólnej liczebności obu grup. Należy podać także informację o liczebności grup w porównaniu pod względem danej cechy, ponieważ bardzo często się zdarza, że niektórych danych nie udało się zebrać i posługiwanie się tylko ogólną liczebnością grup może być mylące (zawyżać wielkość próby) i zawyżać moc danego testu. Pojęcie regresji wielokrotnej jest zaś niezwykle pojemne i jako takie uniemożliwia przeprowadzenie analizy z pewnością, że będzie to wykonane identycznie jak za pierwszym razem. Po pierwsze, w regresji tego typu można użyć modelu „pełnego”, czyli z kompletem predyktorów, lub modelu z selekcją zmiennych. Po drugie, jeśli użyto modelu regresji z niepełnym zestawem predyktorów, to konieczne jest podanie sposobu ich selekcji oraz określenie kryteriów. Wszystkie te bardzo istotne (!) szczegóły powinny być jednoznacznie wyjaśnione w odpowiednim fragmencie artykułu. Swoją drogą modele regresji ze stopniowo (krok po kroku – ang. stepwise) prowadzoną selekcją zmiennych są obecnie bardzo często krytykowane i już nierekomendowane.

Warto w tym miejscu dodać, że w przypadku metod, które można stosować w bardzo zróżnicowany sposób (do takich należy uśrednianie modeli „najlepszych” spośród wielu porównywanych) najlepszym sposobem precyzyjnego opisu jest załączenie użytego skryptu (jak w środowisku R) lub wygenerowanego automatycznie przez dany pakiet raportu. Podsumowując: zawsze po skończeniu przygotowania opisu metod analizy statystycznej należy zadać sobie pytanie, czy na pewno jest on kompletny i zapewnia komuś ewentualne przeprowadzenie takiej analizy w identyczny sposób.

Zapis analiz statystycznych

Tabele, w których podano wartość p, lub wykresy prezentujące ją w dowolny sposób, powinny być zrozumiałe bez odwoływania się do tekstu, czyli muszą zawierać w tytułach lub stopkach wszystkie potrzebne objaśnienia skrótów, symboli itp., a także nazwy testów. Jest to bardzo ważne dla czytelnika, który nierzadko jedynie przegląda artykuł, zwracając szczególną uwagę właśnie na tabele i ryciny, nie czyta zaś tekstu w całości. Tu także konieczna jest uważność. Na przykład w przypadku użytych miar rozrzutu (najczęściej za pomocą „wąsów”) konieczne jest ich zdefiniowanie, a w przypadku popularnych wykresów typu pudełkowego (box plot) wyjaśnienie, czy wąsy ilustrujące rozstęp próby obejmują wartości odstające (a jeśli nie, to jakiego kryterium użyto do ich wyróżnienia).

Mniej istotnym, ale wciąż ważnym problemem jest sam zapis analiz statystycznych, czyli to, co leży już w kompetencjach redaktora językowego. Zupełnie niepotrzebnym utrudnieniem jest ujmowanie w tekście długich ciągów porównywanych statystycznie wartości liczbowych, które znacznie klarowniej prezentowałyby się w jednej lub dwóch tabelach. Ciągły tekst bardzo utrudnia, a czasem uniemożliwia śledzenie korelacji. Utrudnieniem przede wszystkim dla składacza jest wklejanie greckich liter (służących do oznaczania zmiennych statystycznych) w formie obrazków czy innych obiektów – należy je po prostu wpisać w edytorze tekstu poprzez odnalezienie odpowiednich liter w tabeli znaków specjalnych. Wyraźne problemy powoduje zapis przedziału ufności. Najczęściej stosowany jest przedział 95% (ang. 95% confidence interval). Bardzo często spotykany zapis 95% CI = x–y jest błędny, poprawny to 95% CI: [x; y] (średnik można ewentualnie zastąpić przecinkiem). To oczywiście tylko konwencja zapisu, ale warto zwrócić uwagę, że dzięki temu narzędzia tego nie sposób pomylić z żadnym innym. Zwyczajem dawnym, ale także błędnym, jest pomijanie zera, jeśli wartość zmiennej jest mniejsza od 1, czyli np. zapis .005 zamiast 0.005.

Na koniec pozytywny akcent. Prawidłowo przeprowadzone i zaprezentowane analizy statystyczne pozwalają na swoisty moment olśnienia u czytelnika, gdy wszystkie elementy układanki właśnie podczas lektury partii artykułu poświęconych wynikom tych analiz wskakują na swoje miejsce i zdaje on sobie sprawę z siłą narzucającej się oczywistości: mój Boże, te fakty rzeczywiście są ze sobą powiązane! Wymogi redaktorów statystycznych to nie kolejne sito selekcyjne, ale warunek profesjonalizmu czasopisma naukowego z każdego obszaru wiedzy, w którym stosowana jest statystyczna analiza danych. Redaktor statystyczny to jakby kolejny recenzent i jego wskazówki należy traktować tak samo poważnie jak uwagi peer reviewers.

Artykuł powstał we współpracy z Centrum Analiz Statystycznych Uniwersytetu Medycznego we Wrocławiu; szczególnie podziękowania składam dr. hab. Krzysztofowi Kujawie.

Wróć