Natalia Gruenpeter

Współpraca sprzyja otwieraniu danych

Rys. Sławomir Makal

Dopiero w ostatnich latach rozwój technologii umożliwił bezpieczne i relatywnie tanie przechowywanie dużych ilości danych, co pozwoliło na udostępnianie wszystkich danych eksperymentalnych, w tym również bardzo dużych objętościowo, surowych danych dyfrakcyjnych.

W październiku 2021 roku zakończyła się realizacja projektu „Dziedzinowe Repozytoria Otwartych Danych Badawczych”, w ramach którego powstały trzy repozytoria otwarte dla wszystkich badaczy i udostępnionych zostało ponad 600 zbiorów danych. Zarówno zadania zaplanowane w ramach projektu, jak i dodatkowe działania informacyjne uwzględniały międzyinstytucjonalną współpracę, której celem było jak najlepsze wykorzystanie serwisów i ich zasobów, zwiększanie świadomości w zakresie właściwego zarządzania danymi oraz wspieranie badaczy w otwartym udostępnianiu danych.

Nowe repozytoria danych badawczych

Już od ponad roku naukowcy w Polsce mogą korzystać z nowej wersji Repozytorium Otwartych Danych (RepOD), czyli repozytorium ogólnego przeznaczenia dostępnego wcześniej w wersji pilotażowej, a także z dwóch nowych serwisów dziedzinowych: Repozytorium Danych Społecznych (RDS) oraz repozytorium krystalograficznego Macromolecular Xtallography Raw Data Repository (MX-RDR). To w ramach prac nad repozytoriami dziedzinowymi współpraca z partnerami była kluczowa. Chodziło m.in. o wdrożenie rozwiązań, które z jednej strony uwzględniają światowe standardy i dobre praktyki w zakresie otwartego udostępniania danych, a z drugiej przystosowane są do specyfiki gromadzonych danych. Trwający ponad trzy lata projekt realizowany był przez dwie jednostki Uniwersytetu Warszawskiego – Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego (ICM) oraz Instytut Studiów Społecznych im. Prof. Roberta Zajonca (ISS) – we współpracy z Instytutem Filozofii i Socjologii Polskiej Akademii Nauk, zaangażowanym w opracowanie danych społecznych, oraz Uniwersytetem im. Adama Mickiewicza w Poznaniu, odpowiedzialnym za repozytorium krystalograficzne.

Dane społeczne i ich drugie życie

Jak mówi Maciej Melon, kierujący zespołem w IFiS PAN, bezpośrednim efektem projektu jest opracowanie kilkuset zbiorów danych, które w znakomitej większości są dostępne na wolnych licencjach.

– Po drugie, powstała infrastruktura na światowym poziomie, która nie ma barier wejścia. Każdy badacz może z niej w łatwy sposób korzystać – dodaje Maciej Melon.

Opracowane w ramach projektu dane społeczne udostępniane są w dwóch kolekcjach Repozytorium Danych Społecznych: pierwsza gromadzi zasoby Archiwum Danych Jakościowych (ADJ) prowadzonego przez IFiS PAN, druga – dane zgromadzone przez Polskie Archiwum Danych Społecznych (PADS), wspólne przedsięwzięcie ISS UW i IFiS PAN. Celem obu inicjatyw jest gromadzenie, archiwizowanie i udostępnianie danych oraz dokumentacji z wyników badań społecznych realizowanych w Polsce i na świecie.

Udostępnione zasoby przygotowane są w sposób uwzględniający zasady FAIR, zgodnie z którymi dane powinny być łatwe do znalezienia (findable), dostępne (accessible), interoperacyjne (interoperable) i możliwe do ponownego wykorzystania (reusable).

– Punktem krytycznym archiwizacji danych jest możliwość ich ponownego użycia. Gwarancją tego jest pełna dokumentacja zbioru danych, która powinna być prowadzona na każdym etapie realizacji badania i obejmować także wszystkie operacje, jakim poddawany był produkt finalny w postaci zbioru – tłumaczy dr Tomasz Jerzyński, kierownik Ośrodka Badań Socjologicznych w ISS. – Już na etapie planowania badania należy ustalić: strukturę zbioru, konwencję nazewnictwa, sposoby kontroli spójności danych, sposób przygotowania książki kodów, zasady tworzenia zmiennych wtórnych, strukturę dokumentacji – dodaje.

Dr Marcin Zieliński, kierownik PADS, zauważa, że równie istotne jest dokumentowanie kontekstu wytworzenia danych.

– Niejednokrotnie bowiem, szczególnie w przypadku nauk społecznych, to kontekst badania definiuje pozyskane rezultaty, a bez niego trudno wyobrazić sobie interpretację choćby najlepiej opracowanych danych.

Dlatego dane badawcze udostępniane są w RDS wraz z dokumentacją oraz opatrzone bogatymi, dostosowanymi do dyscypliny metadanymi, które ułatwiają wyszukiwanie interesujących zasobów.

– Co istotne, metadane wykorzystywane w RDS są zgodne z międzynarodowym standardem Data Documentation Initiative (DDI). W przyszłości zatem dane z polskich badań uzyskają należną im międzynarodową widoczność – dodaje dr Zieliński.

Maciej Melon podkreśla, że dane mogą zyskać drugie życie po uwolnieniu od kontekstu ich powstania. Inni badacze mogą spojrzeć na nie w nowy sposób, także z perspektywy innej dyscypliny, np. wywiady socjologiczne mogą stać się źródłem dla historyka.

– Możliwe są też rewizyty badawcze, to jest powrót do społeczności (rzadziej – konkretnych osób) badanych kilkanaście czy kilkadziesiąt lat temu, by dowiedzieć się, czy i jakie zaszły w tym czasie zmiany, a przy okazji być może zadać nowe pytania – dodaje dr Danuta Życzyńska-Ciołek, zaangażowana w projekt członkini zespołu ADJ IFiS PAN. – Osobną kwestią jest możliwość wykorzystania zarchiwizowanych danych w dydaktyce – przykładowo, studenci lub doktoranci mogą na ich podstawie uczyć się kodować, analizować, a po części i prowadzić jakościowe wywiady socjologiczne.

Dr Tomasz Jerzyński również zwraca uwagę na możliwość przeprowadzenia nowych analiz z wykorzystaniem danych zastanych, dodając, że z jednej strony może to pozwolić na uniknięcie powtarzania badań, a z drugiej na ich wzbogacenie.

– Często jest też tak, że badacze ograniczają stawiane przez siebie hipotezy do celów, jakie stawiali sobie, projektując badanie. Zastosowanie istniejących zbiorów danych może być znacznie szersze. Udostępnienie danych osobom niezwiązanym otwiera drogę do nowych odkryć i weryfikacji hipotez innych niż pierwotnie stawiane za cel badania – dodaje badacz.

Nowe rozwiązania i kompetencje

Z Repozytorium Danych Społecznych korzystać mogą także naukowcy z innych instytucji, niezaangażowanych w realizację projektu. Repozytorium umożliwia udostępnianie danych w sposób uwzględniający zasady FAIR i dobre praktyki komunikacji naukowej.

– Każdy zbiór uzyskuje numer DOI i w automatyczny sposób tworzony jest wzór cytowania, co ułatwia przywoływanie zbiorów – wraz z nazwiskami ich autorów – w publikacjach naukowych. Ponadto, dzięki szkoleniom zorganizowanym w ramach projektu, w których wzięło udział kilkuset badaczy społecznych, rośnie w środowisku wiedza na temat pożądanych sposobów postępowania z danymi badawczymi – podkreśla dr Danuta Życzyńska-Ciołek.

Szkolenia oraz działania promocyjne były ważnym elementem projektu. Od początku organizowane były szkolenia z zarządzania danymi badawczymi, które cieszyły się bardzo dużym zainteresowaniem. Od 2021 roku oferta szkoleniowa uzupełniona została o webinaria na temat korzystania z repozytoriów oraz webinaria dziedzinowe. Badacze i specjaliści ds. archiwizacji z IFiS PAN oraz ISS UW podkreślali specyfikę danych społecznych, w szczególności etycznych zobowiązań badaczy wobec osób badanych, problem anonimizacji i identyfikacji osób badanych czy uzyskania odpowiednich zgód.

– Przede wszystkim warto już na etapie planowania projektu badawczego założyć, że dane będą w przyszłości udostępniane. Badania jakościowe to najczęściej wywiady z konkretnymi ludźmi. Osoby, z którymi przeprowadza się wywiady, muszą wiedzieć o przyszłym udostępnieniu danych i udzielić na to zgody. Odrębną kwestią jest zakres takiej zgody, który możemy dostosować do okoliczności – zaznacza Maciej Melon.

Dr Marcin Zieliński rozwija temat zagadnień etycznych:

– Badacze, szczególnie z obszaru nauk społecznych, obcując z danymi o ludziach, podlegają rozmaitym regulacjom prawnym i etycznym, których głównym i wspólnym celem jest ochrona tych ludzi przed nieuprawnionym wykorzystaniem informacji, które są o nich zbierane, a nawet częstokroć tych, które sami o sobie podają. Wiele informacji ma charakter wrażliwy, dotyczą życia prywatnego, bywają skrywane przed otoczeniem, wykorzystanie niektórych mogłoby się wiązać z naruszeniem nie tylko prywatności, ale również bezpieczeństwa.

Problemy te poruszane są w rozmaitych kodeksach obowiązujących badaczy. Równie istotną kwestią jest sam proces anonimizacji, która – wedle Zielińskiego – jest najsłabiej chyba opisanym i opracowanym zagadnieniem archiwistycznym, a do jej przeprowadzenia potrzebne jest duże doświadczenie pracy z danymi.

Otwarte dane eksperymentalne

Macromolecular Xtallography Raw Data Repository MX-RDR, drugie repozytorium dziedzinowe, przeznaczone jest do przechowywania i udostępniania surowych danych dyfrakcyjnych o kryształach makromolekuł.

– Krystalografia jest nauką eksperymentalną i wszystkie dane związane z eksperymentem są bardzo istotne. Niestety przez wiele lat w krystalograficznych bazach danych przechowywane były tylko ostateczne rezultaty badań. Od roku 2008 baza Protein Data Bank (PDB) wprowadziła obowiązek depozytu przetworzonych danych eksperymentalnych (o objętości kilku MB). Dopiero w ostatnich latach rozwój technologii umożliwił bezpieczne i relatywnie tanie przechowywanie dużych ilości danych, co pozwoliło na udostępnianie wszystkich danych eksperymentalnych, w tym również bardzo dużych objętościowo (od kilku do kilkudziesięciu GB) surowych danych dyfrakcyjnych. Obecnie duża część tych danych jest przechowywana i udostępniana w sposób otwarty – podkreśla dr hab. Mirosław Gilski, prof. UAM, kierujący zespołem projektowym w UAM. – Rejestracja surowych danych dyfrakcyjnych w krystalografii jest ostatnim etapem eksperymentalnym, wszystkie kolejne kroki i obliczenia są oparte na tych danych, a ostateczny model cząsteczki jest interpretacją wyników tych obliczeń. Udostępnienie tego typu danych jest bardzo ważne, ponieważ ponowne przetworzenie i ich interpretacja (np. za pomocą nowszych, udoskonalonych wersji programów obliczeniowych) może doprowadzić do uzyskania lepszej jakości wyników.

Prace nad serwisem obejmowały m.in. opracowanie schematu metadanych oraz modułu automatycznej analizy.

– Wyniki automatycznego procesowania danych dyfrakcyjnych umieszczone są w repozytorium jako dodatkowa informacja pozwalająca oszacować poprawność analizy wykonanej przez autora depozytu. Jeśli obie analizy różnią się znacząco, jest to sygnał dla użytkowników (jak również dla autora), że należy ponownie sprawdzić poprawność procesowania danych – tłumaczy prof. Gilski.

Choć repozytorium MX-RDR działa od niedawna, znajdują się już w nim dane badaczek i badaczy z kilku instytucji naukowych w Polsce, takich jak instytuty i centra naukowe Polskiej Akademii Nauk (Instytut Chemii Bioorganicznej w Poznaniu, Instytut Chemii Organicznej w Warszawie czy Centrum Badań Molekularnych i Makromolekularnych w Łodzi), uniwersytety (Uniwersytet Jagielloński, Uniwersytet w Białymstoku) oraz Międzynarodowy Instytut Biologii Molekularnej i Komórkowej w Warszawie.

Kolekcje instytucjonalne

Rozwój repozytoriów dziedzinowych nie był jedynym obszarem, który pozwolił na rozpoczęcie współpracy z innymi instytucjami. Oferta Repozytorium Otwartych Danych kierowana jest nie tylko do indywidualnych badaczy, ale również do uczelni i instytutów naukowych, które mogą założyć w repozytorium własne kolekcje.

– Instytucje naukowe zyskują możliwość uporządkowanego przechowywania i udostępniania danych wytwarzanych w ramach prowadzonych przez ich pracowników badań, bez konieczności ponoszenia kosztów budowy i utrzymania własnej infrastruktury – zauważa Jakub Szprot, kierownik projektu.

Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego Uniwersytetu Warszawskiego zawarło już piętnaście porozumień z uniwersytetami oraz instytutami badawczymi, które zakładają w RepOD swoje kolekcje.

– ICM UW od wielu lat specjalizuje się w tworzeniu i rozwoju systemów służących udostępnianiu publikacji i danych naukowych, dzięki czemu polskie uczelnie i instytuty zyskują dostęp do rozwiązania zgodnego z europejskimi i światowymi standardami. Umieszczenie danych pochodzących z wielu instytucji w jednym repozytorium zwiększa szanse na ich odnalezienie i wykorzystanie przez użytkowników – dodaje Szprot.

Kolekcje instytucjonalne są także okazją do rozwijania współpracy międzyinstytucjonalnej.

– Polityki instytucjonalne, rozwój infrastruktury, wymiana dobrych praktyk i wypracowywanie standardów, edukacja, data stewardship – we wszystkich tych kwestiach instytucje naukowe w Polsce mogą i powinny ze sobą współpracować. Z jednej strony pomogłoby to badaczom odnaleźć się w nowym środowisku, z drugiej zaś umożliwiłoby wykorzystanie otwartości danych do systemowego wzmocnienia uprawianej w Polsce nauki – mówi Jakub Szprot.

Jest to szczególnie ważne w kontekście zmian, jakie obserwować można w nauce i komunikacji naukowej, zarówno w Polce, jak i w innych krajach europejskich, m.in. polityk otwartości przyjmowanych przez instytucje finansujące i prowadzące badania naukowe czy wdrażanej właśnie dyrektywy o otwartych danych i ponownym wykorzystywaniu informacji sektora publicznego.

Natalia Gruenpeter pracuje w zespole Platformy Otwartej Nauki działającej w Interdyscyplinarnym Centrum Modelowania Matematycznego i Komputerowego Uniwersytetu Warszawskiego. Koordynuje działania Krajowego Biura Otwartego Dostępu OpenAIRE; w projekcie Dziedzinowe Repozytoria Otwartych Danych Badawczych odpowiada za organizację szkoleń, komunikację i promocję.

Wróć