Marek Misiak

Skąd to wiesz?

Rys. Sławomir Makal

Dzięki dostępności danych badawczych stają się one własnością całej społeczności naukowej nie tylko do replikowania, ale i do prowadzenia nowych badań. Inni naukowcy mogą operować dzięki temu na większych zbiorach danych, do których wyłącznie we własnym zakresie nie mieliby dostępu i np. dochodzić do wniosków prawdziwych dla dużych, zróżnicowanych populacji.

Jako redaktor czasopisma naukowego słyszę czasem cierpkie słowa od autorów, którzy starają się spełnić wstępne warunki przyjęcia manuskryptu do recenzji lub dotarli do etapu korekty autorskiej i okazuje się, że ona również odbywa się według konkretnych reguł. Kultura osobista i odporność na stres sprawiają, że nie pozwalają sobie na jawne okazanie irytacji czy zniecierpliwienia – w tej pracy można przyjrzeć się z bliska ludziom naprawdę opanowanym (i uczyć się na ich przykładzie). Cierpkość polega na ironii, a przekaz najczęściej da się streścić tak: „Publikuję w czasopismach naukowych od X lat i pierwszy raz stykam się z takimi wymaganiami”. Doświadczenie to cenna rzecz, ale jeśli się z czymś wcześniej nie spotkaliśmy, to nie znaczy, że to jakaś nowinka o wątpliwym sensie. Świat nauki trapią rozliczne problemy i nowości wprowadzane przez czasopisma są często próbami zaradzenia im. Nie ma i w przyszłości na pewno nie będzie możliwości, aby po zebraniu iluś lat doświadczenia usiąść wygodnie i mieć ten komfort, aby stwierdzić: „Teraz już wiem, jak to się robi”. Jako redaktor muszę uczyć się przez całe życie i w podobnej sytuacji są autorzy, nie tylko w swojej dziedzinie badawczej, ale także w bardziej technicznych kwestiach związanych z publikowaniem w czasopismach naukowych.

Wiele nowych rozwiązań nie jest tak naprawdę zupełnie nowych, są już stosowane, ale tylko przez niektóre czasopisma (np. te najbardziej renomowane). Rzadko kiedy następuje szeroko zakrojona rewolucja, częściej ewolucja, gdy dana idea zdobywa prawo obywatelstwa przez lata. Dla przykładu: publikowanie artykułów naukowych w pierwszej kolejności lub wyłącznie online zaczęto praktykować już trzydzieści lat temu, ale normą stało się ono dopiero po ponad dwudziestu latach. Warunkiem szerszego wdrożenia jakiegoś rozwiązania jest najczęściej splot dwóch czynników: świadomości, po co to robimy, i łatwej dostępności technologii, dzięki którym możemy robić daną rzecz. Przykładem innowacji szeroko znanej już np. w USA i Wielkiej Brytanii, która jednak wciąż może się wydawać egzotyczna wielu badaczom o ugruntowanej pozycji, jest wymóg (lub przynajmniej mocno sugerowana możliwość) udostępniania czytelnikom danych badawczych (research data sharing). Nie zamierzam tu omawiać jednej, wzorcowej strategii w tym obszarze, chcę tylko nakreślić, jakie są najczęściej praktykowane rozwiązania, aby czytelnik, który wcześniej nie zetknął się z takimi oczekiwaniami przy nadsyłaniu artykułu do czasopisma naukowego, nie był zupełnie zaskoczony.

Jaki jest cel udostępniania

Ktoś mógłby wskazać, że przecież wszystko, co istotne, zawarto w treści artykułu. Podstawowym celem jest przeciwdziałanie konkretnemu, poważnemu problemowi – kryzysowi replikowalności w nauce (reproducibility crisis). Jeśli inni badacze mają mieć możliwość powtórzenia cudzych badań w celu potwierdzenia prawidłowości rezultatów, muszą mieć dostęp do pełnej wiedzy na temat tego, jak pierwszy zespół doszedł do opisanych wniosków. Są też jednak inne zalety łatwej dostępności danych badawczych: w ten sposób stają się one dostępne dla całej społeczności naukowej nie tylko do replikowania, ale i do prowadzenia dalszych, nowych badań. Inni naukowcy mogą operować dzięki temu na większych zbiorach danych, do których wyłącznie we własnym zakresie nie mieliby dostępu, i np. dochodzić do wniosków prawdziwych dla dużych, zróżnicowanych populacji, a nie jedynie niewielkich grup badawczych. Może się też zdarzyć, że ktoś użyje tego samego zestawu danych w nowy sposób i ustali coś zupełnie innego (a też ważnego). W literaturze naukowej na ten temat wskazuje się też, że udostępnianie danych może ułatwiać nawiązywanie współpracy między naukowcami z różnych ośrodków i różnych krajów – od razu można rozmawiać o konkretach. Zdarza się też, że grantodawcy oczekują nie tylko opublikowania wyników badań w otwartym dostępie, ale także ujawnienia zgromadzonych danych, aby całość efektów wytworzonych za publiczne pieniądze była również publicznie dostępna. Nie są wreszcie rzadkością nierzetelne publikacje naukowe i wymóg ujawniania danych, na których oparto analizy, ma utrudniać próby oszustwa lub pozwalać łatwiej obnażyć niekompetencję.

Co należy udostępnić? Charakter danych zależy od dziedziny nauki i dokładnej tematyki artykułu, nie ma zatem żadnych uniwersalnych standardów co do zakresu lub formatu ujawnianych materiałów. W niektórych węższych obszarach tematycznych wypracowano pewne zasady, ale one również niekoniecznie są powszechnie uznawane. Aby niektórzy autorzy nie udostępniali całych hektarów danych, niektóre redakcje posługują się pojęciem minimalnego zestawu danych (minimal dataset), najczęściej rozumianego jako: 1) tylko dane bezpośrednio związane z badaniami opisanymi w artykule i 2) tylko dane umożliwiające replikację przeprowadzonych działań. Warto też wskazać, że w niektórych obszarach wiedzy istotne może być ujawnienie tylko danych surowych, w innych tylko przetworzonych, a w jeszcze innych i jednych, i drugich.

Stworzono już klasyfikacje polityk przyjmowanych przez czasopisma naukowe, jeśli chodzi o data sharing. Na użytek tego tekstu przyjmijmy podział jak najprostszy. Jeśli dany periodyk w ogóle wprowadził jakieś regulacje w tym obszarze, to udostępnianie danych może być rekomendowane lub obowiązkowe (poza wyjątkami, o których niżej) oraz następować już w momencie zgłoszenia manuskryptu do danego czasopisma lub dopiero przed publikacją (wówczas wymóg dotyczy tylko artykułów zaakceptowanych do druku). Jeśli natomiast chodzi o kwestie techniczne, dane mogą być dostępne: od autora do korespondencji na żądanie czytelnika (on reasonable request); w repozytorium zewnętrznym – wskazanym/rekomendowanym przez redakcję lub wybranym przez autorów.

Pierwsze rozwiązanie jest rzecz jasna najprostsze, wystarczy wówczas zobowiązywać autorów, aby na końcu artykułu lub w osobnej rubryce (np. przy innych deklaracjach) znalazło się jednozdaniowe sformułowanie, że dane można uzyskać od autora do korespondencji; jeśli zaś jest to niemożliwe, w tym właśnie miejscu powinno być wskazane, dlaczego tak jest. Takie podejście ma jednak kilka ograniczeń. Po pierwsze, papier przyjmie wszystko i deklarację o udostępnieniu danych mogą także bezrefleksyjnie zamieścić autorzy, którzy nie są wcale przygotowani do podzielenia się nimi, wypełniają po prostu kolejny wymóg redakcji, nie zastanawiając się w ogóle nad jego sensem. Gdy faktycznie ktoś zażąda danych, pojawiają się problemy. Ponadto sformułowanie reasonable request może być różnie rozumiane i można sobie wyobrazić sytuację, gdy ktoś odmawia dostępu do danych, manipulując jego sensem. Po drugie, pozyskiwanie danych na żądanie od autora utrudnia dostęp do nich po stronie recenzentów – niektóre czasopisma (na ile się orientuję, jest to na razie dość rzadkie) ostrzegają autorów, że peer reviewers mogą zajrzeć nie tylko do tekstu, ale także do danych. Taka praktyka jest spotykana także wśród recenzentów statystycznych (jeśli w danym czasopiśmie jest taka osobna funkcja), którzy nierzadko sami żądają od autorów surowych danych statystycznych, ale tego rodzaju dane bywają też udostępniane czytelnikom osobno – jako tzw. Supplementary files – i nie odbywa się to w ramach stricte data sharing, choć za pomocą tych samych metod technicznych (czyli poprzez repozytoria).

Dostęp powinien być możliwy przez wiele lat

Największe ograniczenie rozwiązania opartego na oświadczeniu o możliwości zapewnienia dostępu do danych na żądanie wynika z tego, od czego wyszedłem w niniejszym wywodzie – ze zmienności świata. W artykule zawsze podany jest e-mail autora do korespondencji; co jednak, jeśli autor ten zmieni adres, przejdzie na emeryturę lub umrze? Zwłaszcza na Dalekim Wschodzie namierzenie kogoś, kto nie publikuje regularnie i w cenionych czasopismach po angielsku, może być bardzo trudne. Z kim się wówczas kontaktować? Z innymi autorami danego artykułu? Z instytucją podaną w afiliacji autora do korespondencji? Żadna z tych opcji nie daje gwarancji, że uzyskamy cokolwiek, a dostęp do danych powinien być możliwy nawet wiele lat po publikacji artykułu, nie jedynie dopóki dana osoba posługuje się danym adresem e-mail.

Niekiedy autorzy proponują, że udostępnią dane poprzez zwykłą stronę WWW, a nie repozytorium. Taka metoda jest nieco bardziej niezawodna, ale tylko nieco, repozytorium tym właśnie różni się od strony, że ta ostatnia może zniknąć w każdej chwili, a repozytorium daje znacznie większą gwarancję dostępności zdeponowanych plików przez całe dekady i na jasnych warunkach. Dlatego redakcje rosnącej liczby czasopism oczekują umieszczania pakietów danych w zewnętrznych repozytoriach, optymalnie tych cieszących się największą renomą i najbardziej rozpoznawalnych wśród badaczy różnych specjalności, np. Zenodo, Figshare, Harvard Dataverse czy Mendeley. W niektórych dziedzinach nauki powstały też bazy przeznaczone do przechowywania i udostępniania danych określonego typu. Niektóre z nich (np. cztery wymienione wyżej) są bezpłatne. Łączą je trzy cechy: 1) są afiliowane przy cenionych instytucjach lub stowarzyszeniach naukowych (np. Zenodo przy CERN); 2) zdeponowane dane może zmieniać tylko osoba mająca dostęp do danego konta, ale pobrać może każdy; 3) przy deponowaniu plików nadają całemu pakietowi identyfikator DOI. To ostatnie jest kluczowe z punktu widzenia późniejszej dostępności danych dla czytelników danego artykułu. Identyfikatory DOI są trwalsze niż adresy URL, będą prowadzić do tego samego obiektu w sieci nawet jeśli URL się zmieni (o ile zostały prawidłowo nadane). Nie każde internetowe repozytorium ma możliwość nadawania DOI, dlatego jest to ważny argument przy wybieraniu konkretnego repozytorium. Dane w repozytorium są dostępne dla każdego mającego odpowiedni DOI, ale zazwyczaj nie są wyszukiwalne za pomocą wyszukiwarek takich jak Google, Bing czy Yandex.

Sytuacje, gdy podzielenie się danymi nie jest możliwe, można podzielić na pięć kategorii. Pierwszy wyjątek zachodzi wówczas, gdy nie zostały wytworzone żadne nowe dane, np. jeśli autorzy korzystali tylko z danych pozyskanych przez kogoś innego i już publicznie dostępnych; wówczas wystarczy odesłać do miejsca w sieci, skąd dany zbiór danych można pobrać. Druga możliwość to embargo ze względów komercyjnych, np. jeśli badania były prowadzone w laboratorium prywatnej firmy i posłużą w najbliższym czasie do wniosku patentowego, to dane są uwalniane dopiero po pewnym czasie (możliwe są tu różne rozwiązania ze względu na indywidualne uwarunkowania). Może się też zdarzyć (to trzecia opcja), że dysponentem danych jest podmiot inny niż autorzy (third party), np. jakaś instytucja; to ona będzie decydować o ich ujawnieniu i to tam, a nie do autorów trzeba kierować ewentualne zapytania. Takie sytuacje zdarzają się dość rzadko i również są indywidualnie wyjaśniane, aby w miarę możności zapewnić dostęp do danych, ale z pełnym poszanowaniem cudzych praw. Trafiają się wreszcie artykuły (czwarty wyjątek), w których nowe dane są na tyle zwięzłe (np. dane liczbowe pomieszczone w kilku tabelach rozsądnych rozmiarów), że można je wszystkie umieścić w artykule i nie ma potrzeby ujawniać niczego więcej poprzez repozytorium.

Gdy trzeba zanonimizować zbiór danych

Zdecydowanie najczęściej zdarza się wyjątek ostatniego, piątego typu: danych nie można udostępnić, gdyż groziłoby to ujawnieniem tożsamości uczestników badań – jest to szczególnie częste w medycynie, ale i psychologii czy socjologii. W takiej sytuacji redakcja wskazuje autorom, jak można zanonimizować dany zbiór danych; trzeba mieć wówczas na uwadze także to, że niekiedy pojedyncze dane nie umożliwiają odkrycia tożsamości badanych, ale powiązania między nimi już tak („łącząc kropki” można np. ustalić, na pacjentach jakich placówek prowadzono badania). Niekiedy pełna anonimizacja jest niemożliwa i wówczas czytelników jasno się informuje, z jakich powodów dane nie są dostępne. Czasami w takiej sytuacji autorzy zgadzają się na udostępnianie danych na żądanie pojedynczym badaczom (którzy np. pisemnie zobowiążą się do zachowania tajemnicy), ale nie na umieszczenie ich w publicznie dostępnym repozytorium. Rozwiązaniem może być też ujawnienie tylko przetworzonych danych, gdyż pełna anonimizacja jest niemożliwa tylko w odniesieniu do surowych.

Polityka poszczególnych czasopism w ogóle oczekujących udostępniania danych badawczych różni się natomiast w odniesieniu do sytuacji, gdy autorzy nie chcą się nimi dzielić, ponieważ mogą być przydatne w dalszych badaniach, a w ten sposób mogłaby uzyskać do nich dostęp konkurencja z innych zespołów czy ośrodków. Nie jest natomiast na ogół akceptowana odmowa bez podania powodu, zakłada się, że autorzy nie dysponują danymi według uznania i jeśli czasopismo wymaga ich ujawnienia, a nie zachodzi żaden z powyższych wyjątków, to taka odmowa jest podstawą do odmówienia publikacji, a jeśli udostępnienie danych jest wymagane już przy zgłaszaniu artykułu – do odmowy skierowania go do recenzji (a zatem do desk rejection).

Na koniec ważne spostrzeżenie: niektóre redakcje jednocześnie z wymogiem udostępnienia danych zabraniają używania w tekście sformułowania data not shown – jeśli zostały zgromadzone jakieś dane, to trzeba je ujawnić; po prostu nie musi się to odbywać w treści artykułu.

Wróć