logo
FA 4/2021 błąd, niepewność, ryzyko

Michał Myśliwiec

Jak poprawić stosowanie zasad Evidence Based Medicine

Jak poprawić stosowanie zasad Evidence Based Medicine 1

Rys. Sławomir Makal

Krytyczne podejście do wyników wszystkich badań powinno towarzyszyć każdej ich analizie. Zadaniem prawdziwego naukowca jest postawienie pytań: „czego mi nie powiedziano?” i „co próbuje się przede mną ukryć?”. Wiadomo, że tylko twierdzenia, którym ktoś nieskutecznie próbował zaprzeczyć, są wiarygodne.

Evidence based medicine (EBM) jest to postępowanie medyczne oparte na wiarygodnych dowodach naukowych. Według „British Medical Journal” z 2007 r. EBM jest to jedna z dziesięciu najważniejszych innowacji w medycynie w ciągu ostatnich 150 lat i podstawa współczesnej sztuki lekarskiej.

Pandemia koronawirusa przyspieszyła lawinę niedopracowanych prac naukowych, najczęściej udostępnianych w formie preprintów (prac, które jeszcze nie były recenzowane). Do czerwca 2020 liczba prac dotyczących koronawirusa na serwerze preprintów medRxiv zbliżała się do czterech tysięcy. Do 18 września 2020 wycofano 33 opublikowane prace dotyczące COVID-19. Kilka miesięcy temu wycofano dwie prace z prestiżowych czasopism lekarskich (NEJM i „Lancet”). Pierwsza z nich, opublikowana 1 maja, opisywała brak szkodliwego działania inhibitorów enzymu konwertującego angiotensynę i blokerów receptora angiotensyny u pacjentów z COVID-19. Inna, opublikowana w „Lancecie” 22 maja 2020, przedstawiała dowody na potencjalne ryzyko użycia chlorochiny lub hydroksychlorochiny u pacjentów z COVID-19. Praca ta spowodowała zawieszenie największego badania klinicznego (SOLIDARITY), w których jednym z ramion było stosowanie tych leków. Obie te prace, mające trzech wspólnych współautorów (prof. Mandeep R. Mehra, dr Sepan S. Desai i dr Amit N. Patel), bazowały na elektronicznych historiach choroby dziesiątków tysięcy pacjentów, pochodzących z setek szpitali z sześciu kontynentów, które były gromadzone w prywatnej bazie Surgisphere. Alarm podniósł jeden ze współautorów pracy z Harwardzkiego Szpitala Uniwersyteckiego, czyli z Brigham and Womens Hospital w Bostonie. Redakcja NEJM 3 czerwca wyraziła zaniepokojenie (Expression of Concern) i poprosiła autorów o udowodnienie rzetelności danych. Po odmowie przez Surgisphere ujawnienia wyjściowych danych z bazy obie prace zostały wycofane.

Trzecia praca, współautorstwa Mehra, Desai i Patel, oparta na danych z bazy Surgisphere i przesłana 6 kwietnia jako preprint, została wycofana przez samych autorów. Wykazano w niej, że iwermektyna (popularny lek przeciwpasożytniczy) zmniejszała śmiertelność u pacjentów z COVID 19. Carlos J Chaccour z Barcelony sądzi, że praca ta mogła zainspirować kilka krajów latynoamerykańskich do stosowania iwermektyny w COVID-19 (w Peru zalecono jej stosowanie).

Decyzji nie podejmują dane, lecz ludzie

Praca niedawno opublikowana przez E. Boetto i współpracowników w „Journal Medical Ethics” wskazuje na konieczność zaostrzenia polityki czasopism oraz wprowadzenie publicznej kontroli danych wyjściowych i poddanych analizom statystycznym, protokołu badania oraz rzetelnego sprawdzenia deklaracji autorów i ich konfliktów interesów – w celu ograniczenia możliwości publikacji fabrykowanych lub podrasowanych.

Szczególnie w dobie pandemii najważniejsze są informacje istotne dla pacjenta (Patients Oriented Outcomes – PIO). Prof. R. Jaeschke i współautorzy w pracy opublikowanej kilka miesięcy temu w „Medycynie Praktycznej” (2020) zwracają uwagę na to, że: decyzji nie podejmują dane, lecz ludzie, wobec indywidualnego chorego lekarz musi podejmować decyzje, także mając słabe dowody naukowe. Początkowo większość informacji oparta jest na preprintach (prace przed oceną recenzentów), a wytyczne, często sprzeczne, wymagają poprawek, w miarę zdobywania nowych informacji.

Charakterystyka publikacji w dobie pandemii COVID-19 wskazuje na: zalew niedopracowanych prac, wykonanych pospiesznie (~1000 o HCQ); często sprzeczne wyniki: osocze szkodzi Pei PAIM/ korzystne wg WHO; setki zarejestrowanych RCT i setki metaanaliz; trudność odróżnienia istotnej informacji od szumu; wzrost poznawczej i emocjonalnej niepewności u lekarzy; obciążenie poznawcze ® wyczerpanie psychiczne. Dodatkowo mieszają się informacje oparte na dowodach naukowych z wolą polityków i decydentów.

Dobrym przykładem na ostatni zarzut jest osocze ozdrowieńców, które stało się centrum zainteresowań politycznych. Ówczesny szef amerykańskiego FDA, Stephen Hahn, oświadczył na konferencji prasowej, że „Osocze ozdrowieńców, zmniejszające śmiertelność o 37%, jest historycznym przełomem w leczeniu COVID-19”. Wniosek oparty był na analizie przeżycia podgrupy, wyodrębnionej z podgrupy, wyodrębnionej z podgrupy 1018 pacjentów, którzy otrzymali osocze ozdrowieńców. Tytuł na stronie FDA głosił: Another Achievement of Administration’s Fight Against Pandemic. Prof. Hahn na drugi dzień przeprosił za wprowadzenie w błąd i przyznał, że zmniejszenie śmiertelności o 37% odnosi się do względnego zmniejszenia ryzyka (Relative Risk Reduction – RRR), zaś ważniejsze, tzw. bezwzględne zmniejszenie ryzyka (Absolute Risk Reduction – ARR), wynosi tylko 3-4%. Różnice między względnym a bezwzględnym zmniejszeniem ryzyka obrazuje przykład badania, które w grupie 100 osób leczonych wykryło jeden zgon, zaś w grupie kontrolnej dwa zgony (RRR = 50%, zaś ARR 1%).

Obecnie przyjmuje się następującą hierarchię wiarygodności badań klinicznych: 1) metaanaliza RCT (Randomized Clinical Trial) i przegląd systematyczny RCT; 2) pojedyncze RCT; 3) RCT adaptacyjne (pragmatyczne, naturalistyczne, praktyczne); 4) badanie eksperymentalne bez randomizacji; 5) przegląd systematyczny badań obserwacyjnych; 6) pojedyncze badanie obserwacyjne z grupą kontrolną; 7) badanie skrzyżowane (zamiana leków); 8) serie przypadków; 9) pojedyncze przypadki.

Badania randomizowane, adaptacyjne…

Najwyższą wiarygodność mają randomizowane, prospektywne badania kliniczne z grupą kontrolną (inny lek lub placebo). Niestety typowe RCT mają wiele wad, trwają długo, są drogie i większość odbywa się w warunkach eksperymentalnych, często w homogennej populacji i idealnych warunkach klinicznych oderwanych od realnego życia, w których warunki włączenia eliminowały większość pacjentów głównie z powodu współchorobowości. Wiarygodność RCT zwiększa zaślepienie, szczególnie podwójne, czyli i chorych, i badaczy, oraz ściśle określone punkty końcowe ustalone przed rozpoczęciem rekrutacji.

Jeżeli kilka RCT udowodni działanie leku, możemy mieć większą pewność, że tak jest rzeczywiście. Oczywiście należy brać pod uwagę proweniencję ośrodka i badaczy oraz konflikt interesów badaczy i sponsora badania klinicznego. Stąd większe jest przekonanie do badań zainicjowanych przez ośrodki akademickie niż sponsorowanych przez firmę produkującą dany preparat.

Pandemia COVID-19 przyczyniła się do rozpowszechnienia tzw. badań adaptacyjnych. Są one przeprowadzone na szerszej populacji tzw. rzeczywistej (real life), bez eliminacji chorób współistniejących. Są tańsze, a ich wyniki mogą być szybko wykorzystane w życiu. Główne ich cechy to duża elastyczność, możliwość włączenia wielu grup na starcie, lecz konieczna jest jedna lub więcej grup porównawczych (może być wspólna, ale dobrana losowo). Po pewnym czasie wyniki badania są analizowane przez niezależny komitet, który wyznacza dalszy przebieg badania (przerwanie dalszego badania w jakiejś grupie, utworzenie nowych grup, podział grupy, zmiana dawkowania, dołączenie innego leku i inne). Prawie wszystkie badania randomizowane (RECOVERY, SOLIDARITY, ACTT) to badania adaptacyjne. Prawdopodobnie będą one preferowaną formą RCT także po pandemii.

Krytyczne podejście do wyników wszystkich badań powinno towarzyszyć każdej ich analizie. Zadaniem prawdziwego naukowca jest postawienie pytań: „czego mi nie powiedziano?” i „co próbuje się przede mną ukryć?”. Wiadomo, że tylko twierdzenia, którym ktoś nieskutecznie próbował zaprzeczyć (przeszły „test falsyfikowalności”), są wiarygodne. Badanie RCT RECOVERY (Randomised Evaluation of COVID-19 Therapy) prowadzone jest w Wielkiej Brytanii. Pacjentów z COVID-19 losowo przydzielono do grup, które otrzymywały jeden z następujących leków: azytromycynę, tocilizuman, osocze ozdrowieńców, deksametazon przeciwciała REGN-CoV-2, hydroksychlorochinę i Kaletrę (lopinawir + ritonawir). Leki stosowane w dwóch ostatnich grupach nie były skuteczne, więc badanie w tych ramionach zakończono. Deksametazon wykazał dużą skuteczność w zmniejszaniu śmiertelności, więc uznano kontynuowanie badań w tej grupie za zbyteczne.

Badanie SOLIDARITY, nadzorowane przez WHO, jest także badaniem adaptacyjnym, międzynarodowym i wieloośrodkowym. Nie ma sztywno ustalonej liczby chorych w grupach, zasad przerywania badań i planu analiz pośrednich. Żaden z leków nie zmniejszał śmiertelności, potrzeby respiratora oraz czasu hospitalizacji. Większość punktów końcowych stanowiły surogaty, czyli punkty zastępcze, np. ciśnienie tętnicze, potrzeba respiratora, czas pobytu w szpitalu, zmiany RTG/USG/CT, SpO2 (saturacja), leukocytoza, Interleukina-6, CRP i inne. Na podstawie zastępczego punktu końcowego, jakim jest stężenie glukozy we krwi, zarejestrowano większość leków przeciwcukrzycowych. Obecnie wiadomo, że głównie należy brać pod uwagę powikłania sercowo-naczyniowe i nerkowe, od których zależy przeżycie chorego na cukrzycę.

Typowe badania RCT w dobie COVID-19 były ograniczone, zakłócone, modyfikowane lub wstrzymane. Wytyczne EMA z 28 kwietnia 2020 dopuszczają zmiany w protokole RCT, zastępstwa oraz zmiany miejsca realizacji badania, pod warunkiem poinformowania organu i KE, która musi wyrazić zgodę. Jest też przewidziana opcja natychmiastowych środków bezpieczeństwa (bez zgody Komisji Etycznej). European Forum GCP uznała prymat bezpieczeństwa i zaleciła wstrzymanie lub rozpoczęcie RCT innych niż dotyczące COVID-19. Podobne były decyzje stowarzyszeń i organizacji krajowych.

Smutne fakty dotyczące badań klinicznych

Prof. Bradford Hill opisał pacjenta, który na obchodzie zapytał, dlaczego zmieniono mu tabletki. Na pytanie dlaczego tak sądzi, powiedział, że dotąd otrzymywał tabletki, które tonęły po wrzuceniu do sedesu, a dzisiejsze nie toną. Badania kliniczne często nie są publikowane nawet po dwóch latach od ich zakończenia. Prawdopodobnie dotyczy to badań z nieoczywistymi wnioskami lub kontradykcyjnych w stosunku do oczekiwań badaczy.

W medycynie błędy są szczególnie niebezpieczne, stanowiąc trzecią przyczynę zgonów.

Błąd pierwszego typu (rozpoznanie choroby, której nie ma) jest najczęściej bezkarny, aczkolwiek brzemienny w skutki dla pacjenta (poczucie choroby, lęk o przyszłość, możliwość niepotrzebnego zabiegu). Najczęściej nie ma ryzyka pociągnięcia do odpowiedzialności prawnej lub zniesławienia, gdyż skorygowanie błędu jest trudne i rzadko do niego dochodzi, bo doktor chciał przecież jak najlepiej, nawet z przesadą. Cieszy się pacjent i jego rodzina, że ktoś wreszcie odkrył chorobę. Jest więc w medycynie tendencja do rosnącej liczby tego typu błędów, szczególnie, gdy sprzyja to rynkowi leków, a i lekarz ma mniej pracy i kłopotu, lecząc pacjenta zdrowego. Tacy „chorzy” korzystają nagminnie z medycyny alternatywnej, czyli nieopartej na dowodach naukowych i niezweryfikowanej (ok. 40% Amerykanów z niej korzysta).

Błąd drugiego typu (choroba obecna, ale niezdiagnozowana) jest łatwiejszy do wykrycia i często powoduje pociągnięcie lekarza do odpowiedzialności prawnej, zwykle za zaniechanie. Lekarz naraża się na potępienie i zniesławienie, także w oczach kolegów. Błąd może być skorygowany, gdy nasilą się objawy choroby, co zwiększy szansę jej rozpoznania. Lekarze boją się błędu drugiego typu, co powoduje rozwój „medycyny obronnej”, czyli zlecania niepotrzebnych badań obrazowych lub laboratoryjnych „na wszelki wypadek”.

Błąd trzeciego typu polega na błędnym zastosowaniu i interpretacji analizy statystycznej. Warto wspomnieć, że to Disraeli jest autorem powiedzenia o trzech rodzajach kłamstwa (kłamstwo, przeklęte kłamstwo i statystyka). Z drugiej strony, William Osler już w XVIII wieku twierdził, że medycyna jest nauką niepewności i sztuką prawdopodobieństwa. Według Alvana Feinsteina największa choroba współczesnej literatury medycznej wynika z nieprawidłowej interpretacji znamienności statystycznej.

W USA trwa kampania Choosing Wisely (zmniejszyć badania i nadmiar leków), wynikająca z iluzji kontrolowania choroby i iluzji terapeutycznej, ale entuzjazm do wiązania poprawy zdrowia ze stosowanym lekiem jest ciągle duży. Terapeutycznej iluzji sprzyja też błąd konfirmacji, czyli szukanie dowodów potwierdzających to, co uznajemy za prawdziwe.

Błędne wnioskowanie i nadmiar wytycznych

Istnieje powszechne przekonanie o dołujących standardach badań naukowych. Zacierają się różnice między rzetelnymi dowodami naukowymi a spekulacją lub fikcją, nie mówiąc o statystycznym maltretowaniu wyników, by uzyskać jakieś znamienności, podrasowanych wynikach i naciąganych wnioskach. Potwierdzają to analizy naukowe. W topowym czasopiśmie JAMA w 2014 r. ukazała się praca, która wykazała, że spośród 96 randomizowanych badań klinicznych opublikowanych w czasopismach o wysokim IF, 93 zawierało różne dane w publikacji papierowej i w informacji internetowej.

Artykuł redakcyjny w BMJ w 1994 ma tytuł Skandal marnych badań medycznych i dotyczy badań, których nie można powtórzyć. Wynika z niego, że duża część badań może wprowadzać w błąd. Na szczęście artykuł ten jest bardzo szeroko cytowany, co świadczy o tym, że wstrząsnął opinią naukowców. Nawet w onkologii ponad 50% prac nie można powtórzyć. John P.A. Joannidis opublikował artykuł zatytułowany Dlaczego większość badań klinicznych nie jest przydatna (Why Most Clinical Research Is Not Useful). Zbyt często badaczami kieruje żądza uzyskania lepszej bibliometrii, rozliczenia projektu, osiągnięcia kolejnych stopni lub stanowisk, nie mówiąc już o względach pekuniarnych. Konsekwencją „medycznych dezinformacji” jest wprowadzanie w błąd łatwowiernych i bezkrytycznych lekarzy ze szkodą dla pacjentów („Cancer Research” 2016). Znana jest próba dwóch firm farmaceutycznych wykorzystania innowacyjnych prac podstawowych, opisanych w topowych naukowych czasopismach medycznych. Okazało się, że wyniki tylko 15-25% prac można było powtórzyć. W medycynie wdrażanie niepewnych procedur może być związane z działaniami niepożądanymi. Jatrogenne szkody na zdrowiu zostały po mistrzowsku opisane przez Iwana Illicha we wstrząsającej książce Medical Nemesis.

Powszechna dostępność do internetu nasiliła opisane przez Dunninga i Krugera zjawisko psychologiczne, polegające na odwrotności ignorancji i pewności siebie (im większa ignorancja, tym większa pewność siebie). Wątpliwej jakości prace utwierdzają ludzi w przekonaniu, że ich ignorancja nie jest wcale gorsza niż wiedza naukowców i ekspertów. Kontestowanie autorytetów i ekspertów jest groźne dla rozwoju społeczeństw. Skutki są żałosne, bo ludzie zaczynają negować takie fakty jak ewolucja czy ocieplanie klimatu.

Na szczęście obecnie powszechne jest przekonanie o konieczności potwierdzenia wyników przez niezależnych badaczy. Proponuję, za radami baronessy i prof. Onory O’Neil, badać proweniencje informacji i brać pod uwagę tylko pochodzące od osób wiarygodnych, czyli kompetentnych, prawdomównych i szczerych.

Wyciąganie wniosków jest w publikacji najważniejsze, gdyż w powodzi informacji może być jedynym fragmentem pracy, który koduje informację przekazywaną innym. Wnioski muszą wynikać z pracy i być logiczne. Wniosek można wyciągnąć nawet z pojedynczej obserwacji. Na przykład widok ptaka w locie upoważnia do wyciągnięcia wniosku, że latanie jest możliwe.

Niestety często wnioski są zbyt szerokie, niezasadnie uogólniane, niezgodne z zawartością pracy i nakierowane na pożądaną tezę lub dostosowane do życzenia zainteresowanej firmy. Wnioski nie mogą być oparte na poszlakach. Dla przestrogi warto przytoczyć historię Abrahama Lincolna, który w młodości bronił swojej niewinności przed sądem w sprawie, w której poszlaki mogły przemawiać przeciw niemu. Przedstawił on sądowi możliwość zupełnie błędnej logiki poszlak na podstawie anegdoty o farmerze, do którego przybiegł podekscytowany sześcioletni syn, krzycząc: Tato, tato, twój robotnik z moją siostrą są w stodole na sianie. On zdjął spodnie, a ona podniosła spódnicę. Pewnie będą sikać na siano.

Coraz częściej RCT obejmują wielotysięczne grupy chorych, aby osiągnąć znamienność statystyczną, ale dotyczą marginalnych zysków lub nie samych chorób, lecz czynników ryzyka. Jest to jak nisko rosnący owoc, łatwy do osiągnięcia, ale mało dojrzały, i zysk z niego niewielki. Wystarczy jednak wykazać statystycznie znamienny zysk z obniżenia lub podwyższenia czegoś, by można było wytworzyć lek, który koryguje ten parametr. Wszyscy są zadowoleni z możliwości odkrycia, wytwarzania, promowania, przepisywania i brania leku, którego działanie „potwierdzono w badaniu naukowym”. Oczywiście szczególnie ludzie starsi mają wiele chorób, na które różne leki mogą mieć przeciwstawne działania niepożądane.

Fałszerstwa i manipulacje były częste w historii nauki. Podobno podrasowywał swoje prace Freud i wielu innych. Stąd sformułowana przez Francisa Bacona na początku XVII wieku i dopracowana w wieku XX przez Karla Poppera zasada, że zadaniem nauki nie jest potwierdzanie tez naukowych, lecz ich kwestionowanie. Dopiero po nieudanych próbach zakwestionowania tez pracy (sprawdzalność/falsyfikowalność) można uznać, że teza jest prawdziwa.

Znana nefrologom tzw. odwrócona epidemiologia, czyli mniejsza śmiertelność chorych dializowanych, którzy mają otyłość, nadciśnienie, hiperlipidemię i wysokie stężenia kreatyniny, może być spowodowana śmiercią większości pacjentów z tymi chorobami zanim rozwinie się schyłkowa niewydolność nerek wymagająca dializ. Błąd sprowokowany jednym lub wieloma czynnikami kolidującymi jest często trudny do uświadomienia.

Aż 35% badań chcących powtórzyć RCT dostarczyło odwrotnych wniosków. Fiona Godlee zatytułowała artykuł redakcyjny w BMJ z 2014 r. Jak wytyczne mogą wprowadzać w błąd i odpowiedziała, że wiele z nich opiera się na sfałszowanych lub wręcz fikcyjnych dowodach. To powinno być ścigane przez prawo.

Nadmiar wytycznych, szczególnie opartych na niepewnych dowodach naukowych, jest zmorą klinicystów. Obrazuje to przykład z 2005 r., kiedy w ciągu 24 godzin przyjęto do dyżurnego szpitala w Wielkiej Brytanii 18 pacjentów z 44 chorobami. Aby lekarz zapoznał się z wszystkimi wytycznymi na ich temat, musiałby przeczytać 3679 stron, co zajęłoby 122 godziny.

Postulaty

Wielu lekarzy i naukowców uważa, że jeżeli różnica jest znamienna statystycznie, to badanie wykazało istotną klinicznie różnicę, podczas gdy znamienność statystyczna w ogóle nie mówi o prawdziwości hipotezy i może mieć niewielkie lub nieistotne znaczenie kliniczne.

Wartość „p” wymyślił Fisher prawie sto lat temu jako wskaźnik, że eksperyment zasługuje na powtórzenie. Im mniejsze p, tym mniejsze prawdopodobieństwo fałszywie pozytywnego wyniku. Jeżeli do wykazania różnicy trzeba bardzo dużej liczby chorych, to leczenie ma marginalną wartość lub nie ma zbyt dużego praktycznego znaczenia.

Redaktorzy czasopism powinni zachęcać do stosowania bardziej miarodajnych analiz statystycznych i żądać podawania przedziałów ufności (zamiast p), zysku bezwzględnego (zamiast względnego) oraz wyliczania NNT, czyli liczby osób, które trzeba leczyć, by u jednej uzyskać pożądany efekt. Wylicza się NNT ze wzoru 1/ARR (Absolute Risk Reduction). Gdy w grupie badanej doszło do 5% zmniejszenia ryzyka zawału, to NNT wynosi 1/0.05 = 20. Czyli trzeba leczyć 20 ludzi, by uniknąć zawału u jednego. Bardzo niechętnie autorzy podają też liczbę leczonych, którym terapia zaszkodzi (Number Needed to Harm – NNH) i liczbę zbadanych przesiewowo, by pomóc jednej osobie (Numer Needed to Screen – NNS). Do języka medycznego chyba na stałe weszły określenia „efektywność i działania niepożądane” (effectiveness and side effects), zamiast „leczyć lub szkodzić” (cure or harm).

Prof. dr hab. Michał Myśliwiec, nefrolog i hipertensjolog, Klinika Nefrologii i Transplantologii Uniwersytetu Medycznego w Białymstoku oraz Państwowa Wyższa Szkoła Informatyki i Przedsiębiorczości w Łomży

Wróć