logo
FA 3/2023 informacje i komentarze

Piotr Kuśtrowski

Otwarte dane – kto za to zapłaci?

Otwarte dane – kto za to zapłaci? 1

Fot. UJ

Prof. Piotr Kuśtrowski, chemik, prorektor Uniwersytetu Jagiellońskiego ds. badań naukowych i funduszy strukturalnych, mówi czym są dane naukowe oraz dlaczego należy je gromadzić i udostępniać.

Prowadząc badania naukowe gromadzimy wiele informacji, które wypływają z naszych eksperymentów, obserwacji, pomiarów. Te dane nie są usystematyzowane i są dostępne tylko dla uczestników badań. Gromadzimy je na dyskach czy macierzach. Musimy je starannie opisywać, aby były łatwe do zidentyfikowania: skąd pochodzą, czego dotyczą. W gruncie rzeczy chodzi o skrupulatne dokumentowanie badań we wszelkich postaciach. Rezultatem jest czysta informacja. To jednak dopiero początek długiej drogi do rozumienia i przekształcania tych informacji w użyteczną wiedzę. Wyróżniam zatem poziom informacji, które są wynikiem pomiaru, ale bez odpowiedniej interpretacji, „oprzyrządowania” intelektualnego, niewiele znaczą. Same w sobie nie poszerzają wiedzy. Te dane musimy zrozumieć w odpowiednim kontekście, połączyć ze sobą, znaleźć pewne korelacje, zinterpretować i dopiero wtedy tworzymy wiedzę – informacje wzmocnione i przetworzone przez intelekt stają się wiedzą. Przechodzimy wtedy z poziomu informacji i jej opisu na poziom wiedzy. Zdarza się oczywiście, że naukowcy piszą artykuły w postaci przypominającej raporty badawcze, czyli w zasadzie przedstawiają czyste wyniki eksperymentu. Trudno jednak takie podejście uznać za budowanie wiedzy, to jeszcze nie jest nauka, a wciąż poziom informacyjny.

Jeżeli społeczeństwo płaci podatki, które następnie państwo przeznacza na prowadzenie badań, utrzymanie infrastruktury, etaty kadry naukowej, to jako świat akademicki mamy obowiązek pokazać, co z tej pracy wynika, czyli rezultaty eksperymentów czy obserwacji, które nazywamy danymi badawczymi. Ale już niekoniecznie musimy bezwarunkowo ujawniać wszystkim i całkiem otwarcie to, co z tej informacji wynika, czyli nasze przemyślenia, a zatem wiedzę. Przyjętą formą prezentowania wiedzy są publikacje naukowe. Rozumiem, że np. widma, które chemicy uzyskali przy pomocy spektrometrów dla konkretnych związków chemicznych w określonym miejscu i czasie, przy zachowaniu zaplanowanych warunków mogą wejść do przestrzeni ogólnodostępnej, natomiast nie ma już prostego uzasadnienia dla ujawniania danych zinterpretowanych – one trafiają do publikacji naukowej oznaczonej nazwiskiem autora i chronionej prawami autorskimi jako produkt zaawansowanej pracy intelektualnej. Autor ma prawo czerpać z niej określone korzyści, np. budować swoją pozycję naukową.

Surowych danych jest generalnie zacznie więcej niż tego, co publikujemy. Ogromna część informacji uzyskanych w badaniach nigdy nie jest przez nas wykorzystywana. Zalegają gdzieś w zakamarkach komputerów lub po prostu są usuwane. Po co je ujawniać? Ano po to, żeby inni mieli do nich dostęp.

Bazujemy aktualnie na nieco archaicznym stereotypie. Budujemy naukę w instytucjach wyposażonych w odpowiedni sprzęt, infrastrukturę i tylko wtajemniczeni, ci, których uczelnia zatrudni bądź którym udostępni swoje zasoby, mogą skorzystać z tej bazy i z danych uzyskanych z eksperymentów. Dla reszty te zasoby, zgromadzone dzięki środkom publicznym, są niedostępne. Stanowią, według tego schematu, o sile instytucji, a nie o tym, czy i jak potrafi je ona – jej pracownicy – przetworzyć, wykorzystać. Chodzi tylko o ich posiadanie. To wartość sama w sobie. Nie jest to ani twórcze, ani uczciwe podejście. Wydaje się, że świat nauki powinien podążać w kierunku udostępniania danych. Najpierw jednak wykorzystujemy dane, które zaplanowaliśmy zdobyć w naszym eksperymencie, publikujemy wyniki, a potem zarówno dane przez nas pokazane w zaawansowanej formie w publikacji, jak i te, z których nie skorzystaliśmy, udostępniamy zainteresowanym. Mamy zatem prawo pierwszeństwa w wykorzystaniu zgromadzonych przez nas danych. Później ci, którzy skorzystają z danych przez nas ujawnionych, pokazują w swoich pracach, jak weszli w ich posiadanie, i w tym sensie nie tracimy niczego, bo źródło danych, czyli nasz udział w przeprowadzeniu eksperymentu i powstaniu informacji, jest znany i zostanie ujawniony. Oczywiście, dane te mogą też służyć do weryfikacji lub falsyfikacji naszych wyników, publikacji, a czasami wręcz eksperymentów. Ale to wszystko służy nauce i rozwojowi wiedzy ludzkiej.

Dane do udostępnienia muszą być odpowiednio przygotowane, zebrane w formie typowej dla danej dyscypliny i opisane w taki sposób, żeby było jasne, czego dotyczą, kto, gdzie i kiedy przeprowadził obserwację czy eksperyment, według jakich założeń czy przy jakich parametrach zostały pozyskane wyniki. To pomoże je zrozumieć, bo bez odpowiednich opisów, które umożliwiają racjonalne ich wykorzystanie, ujawnianie ich nie ma sensu. Informacje o źródle danych są wszyte w metryczce plików, które trafiają do repozytorium. I wreszcie pojawia się to słowo. Gdzie przechowywać i udostępniać dane badawcze? W repozytoriach.

Składamy w nich różnego rodzaju pliki: tekstowe, excelowe czy specjalistyczne z aparatury badawczej – dostępne w zasadzie tylko dla specjalistów, bo nikt inny nie ma odpowiedniego oprogramowania, by je odczytać. Oczywiście otwieranie danych i działalność repozytoriów dotyczą także danych z dziedziny humanistyki i nauk społecznych.

Postulat otwierania danych naukowych nie jest nowy i jest już realizowany. W projektach finansowanych przez Komisję Europejską, ale także Narodowe Centrum Nauki, jest wymóg udostępnienia danych wytworzonych w wyniku realizacji projektu. W NCN trwa to już od kilku konkursów, np. w ramach programów Opus i Sonata. W tej chwili kończą się pierwsze projekty, w których postawiono warunek udostępnienia danych po okresie ich realizacji. To jest wpisane do umów między NCN a wykonawcami projektów. Zatem kierownicy będą musieli wykazać, że dopełnili tego obowiązku i dane są dostępne. Inna sprawa, jak i gdzie będą oni mogli te dane deponować i udostępniać.

Niedawno w Bibliotece Jagiellońskiej uruchomiliśmy Repozytorium Otwartych Danych Badawczych Uczelni Krakowskich. Na razie jest skierowane do naukowców z sześciu krakowskich uczelni, które tworzą konsorcjum. Chętnie jednak w przyszłości przyjmiemy do swojego grona kolejne zainteresowane uczelnie. Otwartość danych polega na tym, że każdy może wejść, pobrać je i odtworzyć. Zapewne większość kierowników grantów NCN i europejskich z naszych uczelni będzie korzystać z nowego repozytorium, by wypełnić warunek umowy.

Widzę pewne trudności i zagrożenia tego rozwiązania, wynikające choćby z rozmiaru danych, które przyjdzie nam przechowywać i udostępniać. Zwłaszcza dane z obrazowania przeróżnych obiektów, np. kosmicznych czy biologicznych, zajmują olbrzymią ilość miejsca na dyskach. Gdzie pomieścimy to wszystko, co należałoby zdeponować? Aby umieścić to, co posiadamy w lokalnych zasobach dyskowych w jakiejś chmurze, musielibyśmy mieć ekwiwalentną ilość miejsca. W skali kraju zmaterializowanie tego zalecenia będzie ogromnym wyzwaniem. Poza tym obsługa procesu wprowadzania danych wymaga zatrudnienia wyszkolonych pracowników – nazywamy ich „data stewardami” – którzy pomogą depozytariuszom odpowiednio kodować dane, które zechcą wstawić do repozytorium. Zatem pojawiają się dodatkowe koszty uprawiania nauki, które być może zostaną zrekompensowane w przyszłości korzyściami z udostępniania danych badawczych.

Notował Piotr Kieraciński

Wróć