logo
FA 3/2023 komunikacja naukowa

Anna Kamińska

Czym są otwarte dane badawcze?

Do czego ich potrzebujemy i jak się z nimi obchodzić?

Czym są otwarte dane badawcze? 1

Rys. Sławomir Makal

Niezależnie od dziedzin nauki i ich dyscyplin, wspólnym mianownikiem dokumentowania prowadzonych w ich ramach badań są dane, które współcześnie najczęściej przyjmują formę cyfrową. Ich upublicznianie stanowi milowy krok w stronę poprawy jakości i tempa rozwoju badań naukowych. Znajomość podstawowych zasad obchodzenia się z tymi danymi oraz stosowanie się do tych zasad powinny więc cechować każdego człowieka nauki.

Choć samo pojęcie „danych badawczych” (ang. scientific data, częściej: research data) ukute zostało dopiero pod koniec XX wieku w wyniku rozwoju technik analiz obliczeniowych, to jego nieformalne narodziny nastąpiły niewątpliwie już dużo wcześniej, bo w epoce oświecenia wraz z rozwojem idei empiryzmu głoszącej, że prawdziwe jest tylko to, co można poznać (czyli również opisać) doświadczalnie. Obecnie dane badawcze definiuje się ogólnie jako zbiór jakichkolwiek informacji gromadzonych, składowanych i przetwarzanych na potrzeby prowadzonej działalności naukowej i rozwojowej lub, nieco bardziej precyzyjnie, jako dane wejściowe procesów badawczych lub wytworzone na którymś z etapów ich prowadzenia, a gromadzone w celu dokumentowania oryginalnych wyników badań i umożliwienia ich weryfikacji.

Na obserwowany ostatnio światowy wzrost nacisku na zapewnienie możliwości weryfikacji wyników badań na jak najwcześniejszym etapie ich upowszechniania (najczęściej na etapie recenzowania opisu wyników badań zgłoszonych do publikacji) bezpośredni wpływ miało zapewne narastające zjawisko tak zwanego kryzysu powtarzalności badań naukowych (ang. research replication/replicability/reproducibility crisis), będącego aktualnie trwającą zapaścią metodologiczną, wobec której wyniki wielu badań naukowych są trudne lub niemożliwe do odtworzenia. A ponieważ odtwarzalność wyników empirycznych jest immanentną cechą metody naukowej, takie przeszkody podważają wiarygodność teorii na niej opartych, a co za tym idzie potencjalnie kwestionują znaczną część wypracowanej do tej pory wiedzy naukowej. Termin określający kryzys powtarzalności badań powstał w okolicach 2010 r. w ramach rosnącej świadomości problemu, a rozpoczęte wtedy rozważania na temat przyczyn i środków zaradczych dały początek odrębnej gałęzi naukowej zwanej metanauką (ang. metascience), w ramach której wykorzystuje się empiryczne metody naukowe do badania empirycznej praktyki badawczej. Kryzys powtarzalności badań jest szczególnie często przywoływany w odniesieniu do psychologii i medycyny, w których podjęto znaczne wysiłki skoncentrowane wokół ponownego badania ugruntowanych już wyników, aby zweryfikować ich wiarygodność, a w przypadku jej braku określić przyczyny tego stanu rzeczy. Prowadzone badania wskazują jednak, że problem jest szerszy i dotyczy także innych nauk przyrodniczych i społecznych, a nawet technicznych. Być może skala występowania problemu tylko pośrednio zależy od dziedzin czy dyscyplin, a bardziej od obszarów badawczych i wykorzystywanych w nich konkretnych metod.

Dobrym przykładem może być dynamicznie rozwijający się ostatnio obszar sztucznej inteligencji zwany głębokim uczeniem (ang. deep learning) korzystający z technologii wielowarstwowych sieci neuronowych. W bardzo dużym uproszczeniu zagadnienie to polega na maszynowym uczeniu systemu cyfrowego transformującego wejściowy wektor danych (przesłanki, przyczyny, wymuszenie) w wektor wyjściowy (konkluzje, skutki, odpowiedź), w oparciu o zbiór danych opisujący również przyczynowo-skutkowe zachowanie się modelowanego systemu/mechanizmu/zjawiska wyrażone jako zbiór identycznie skonstruowanych wektorów odpowiedzi na wektory wymuszeń. Zbiór ten zawiera więc pewną liczbę obserwacji opisujących przyczyny i skutki, a samo uczenie systemu polega na takim doborze wartości/wag poszczególnych neuronów, aby wiedza zgromadzona w zbiorze uczącym była dobrze uogólniana na przypadki wcześniej nieznane. Problemem nie jest więc wyuczenie systemu dającego najmniejszą, jakkolwiek definiowaną wartość błędu odpowiedzi dla przypadków znanych. Postęp w poszczególnych obszarach dziedzinowych głębokiego uczenia mierzony jest jednak liczbowymi wskaźnikami jakości w oparciu o predykcję systemu dla przypadków nieznanych systemowi w czasie procesu uczenia, ale w celu zapewnienia porównywalności skuteczności uczenia, znanych badaczowi, gdyż musi się on na końcu podjąć oceny uzyskanych wyników. Polega to na tym, że zbiór danych opisujący zjawisko (zawierający wiedzę) dzieli się na podzbiór danych uczących i testowych. Jak już wspomniałam, nie jest problemem uzyskać wysoki wskaźnik jakości, gdy w procesie uczenia wykorzystany zostanie pełny zbiór danych, tak więc weryfikacja wyników jedynie w oparciu o efekt końcowy (wartości wagi nauczonej sieci) nie może wykazać, jakie wektory danych zostały systemowi przedstawione w procesie uczenia, a więc nie dowodzi rzetelności naukowej badania. Aby to zrobić, konieczne jest powtórzenie całego procesu uczenia systemu, a więc znajomość użytego zbioru danych, jego podziału na część uczącą i testową, dokładny opis architektury i przyjętych parametrów systemu oraz kroki, w jakich realizowano cały proces uczenia.

Niestety nawet w przypadku tej stosunkowo młodej gałęzi, jaką jest uczenie głębokie, istnieje bardzo duże zróżnicowanie oraz dostępność wzorcowych zbiorów danych w obrębie poszczególnych obszarów dziedzinowych, a większość publikacji skupia się jedynie na przedstawieniu wyników końcowych (wskaźników jakości) oraz dość pobieżnie przedstawionej architekturze systemu, pomijając wartości wag i dokładny opis procesu uczenia, co uniemożliwia weryfikację deklarowanych wyników.

Drogi do zmiany przyzwyczajeń naukowców

Nauki techniczne współcześnie również nie są wolne od zagrożeń płynących ze strony kryzysu replikacyjnego, co w połączeniu z presją wynikającą z parametrycznych kierunków rozwoju ewaluacji postępów badań naukowych nie sprzyja samo z siebie motywowaniu badaczy do zachowywania transparentności i powtarzalności prowadzenia procesów badawczych. Dodatkowe zagrożenia rodzi również niewątpliwie ciągły wzrost możliwości produkcyjnych naukowego przemysłu wydawniczego, zwłaszcza w dobie jego komercjalizacji, oraz skracanie czasu cyklu wydawniczego prac naukowych wynikające głównie z przestawiania go na tory elektronizacji form wydawniczych. Choć uwarunkowania te na ogół są korzystne, to jednak sprzyjają również budowaniu ślepych frontów badawczych, które bez wczesnej weryfikacji mogą skutkować marnowaniem potencjału badawczego. Dlatego właśnie tak ważne jest zapewnienie odpowiednich mechanizmów weryfikacji wyników badań na jak najwcześniejszych etapach, a możliwość powtarzalności badań w oparciu o udokumentowane dowody naukowe w postaci danych badawczych stanowi tutaj najlepszy oręż.

Drogi do zmiany przyzwyczajeń naukowców i motywowania ich do większej dbałości o zapewnienie powtarzalności badań leżą na dwóch przeciwległych biegunach. Pierwszy to metoda nakazowa, która zaczyna już być coraz powszechniej wdrażana, a instytucje finansujące badania oraz poszczególni wydawcy mogą wymusić odpowiednie standardy publikacji naukowych. Druga to przekonanie świata nauki, że na zapewnieniu powtarzalności badań zyskać mogą sami autorzy publikacji, gdyż łatwiej przechodzi ona proces recenzji, a trafiając do obiegu, przyciąga większe zainteresowanie innych badaczy, którzy w oparciu o dorobek w niej wypracowany, mogą stosunkowo łatwo odtworzyć zastosowany tam warsztat badawczy i skupić się na ulepszaniu wyników tam uzyskanych, potencjalnie zwiększając tym samym ogólne zainteresowanie świata nauki wytyczonymi kierunkami.

Rozważając znaczenie danych badawczych, nie sposób pominąć drugiej fundamentalnej funkcji, jaką pełnią one dla rozwoju nauki, a mianowicie enkapsulacji procesów badawczych. Dotyczy to sytuacji, w których prowadzone badania cechują się charakterem interdyscyplinarnym, ale sposób ich prowadzenia ma przebieg potokowy. Dla przykładu prace nad automatyzacją diagnostyki medycznej dotyczą obszaru samej diagnostyki (wiedza kliniczna), budowy urządzeń diagnostycznych (wypracowywania sygnałów obrazujących stan pacjenta) oraz systemów eksperckich (automatyzacja wnioskowania na podstawie wypracowanych sygnałów i wiedzy klinicznej). Dzięki odpowiednim badawczym zbiorom danych (rozpoznane/oznaczone klinicznie sygnały obrazujące stan pacjenta) praca zespołu rozwijającego system ekspercki może przebiegać w pewnym oderwaniu od pozostałych. Widać więc, że w ogólnym obrazie przenikania dziedzin naukowych dane badawcze pełnić mogą funkcje szkieletu, wokół którego rozwijać się będą coraz to nowe gałęzie, a dane wyjściowe wypracowywane w ramach jednych badań będą mogły zacząć pełnić rolę danych wejściowych bądź też walidacyjnych dla badań innych.

Ustawa o otwartych danych

Wzrost zainteresowania dobrymi praktykami związanymi z danymi badawczymi zaobserwować można również ostatnio w dyskursie krajowym, kiedy to od września 2019 r. zaistniał obowiązek dołączania do wniosków o finansowanie projektów badawczych przez Narodowe Centrum Nauki skróconego planu zarządzania danymi badawczymi, który stanowił odpowiedź na wcześniejsze wytyczne Komisji Europejskiej zawarte w zaleceniach z 17 lipca 2012 r. w sprawie dostępu do informacji naukowej i jej ochrony, a także na dyrektywę Parlamentu Europejskiego i Rady (UE) 2019/1024 z 20 czerwca 2019 r. w sprawie otwartych danych i ponownego wykorzystania informacji sektora publicznego. Ostatecznie w Polsce dyrektywa ta została wdrożona ustawą z 11 sierpnia 2021 r. o otwartych danych i ponownym wykorzystywaniu informacji sektora publicznego. Od tego momentu na witrynach internetowych bibliotek większości uczelni w Polsce zaczęły pojawiać się podstrony informujące kadrę naukową o konieczności wdrażania odpowiednich procedur związanych z obsługą danych badawczych, a zawierające w większości informacje o podstawie prawnej oraz odwołania do wytycznych FAIR (ang. Findable/Accessible/Interoperable/Reusable) opublikowanych w 2016 r. i opisujących dobre praktyki postępowania z takimi danymi (https://www.go-fair.org/fair-principles/). Niestety poziom ogólności opisów tam zamieszczanych, wynikający z jednej strony często z braku doświadczenia w praktykach badawczych kadry bibliotecznej, z drugiej zaś z bardzo dużej specyfiki przetwarzania danych badawczych o różnych postaciach w ramach poszczególnych obszarów badawczych dziedzin naukowych, może powodować, że stosowanie się do nich pozwoli jedynie na formalne spełnianie najbardziej podstawowych regulacji prawnych, a może nie mieć wiele wspólnego z rzeczywistym wkładem w rozwój przejrzystości badań naukowych. Zagrożenia te zostały już dostrzeżone i zaowocowały również krajowymi inicjatywami na rzecz dzielenia się wiedzą i dobrymi praktykami w ramach poszczególnych obszarów badawczych (np. IV Pomorska Konferencja Open Science – udostępnianie danych badawczych).

Jednak pomimo dużej specyfiki przetwarzania danych badawczych w poszczególnych obszarach warto zwrócić uwagę, że obecnie, choć często w domyśle, mówi się już tylko i wyłącznie o danych cyfrowych, czyli takich, które utrwalane są w postaci pliku lub zbioru plików komputerowych. To spostrzeżenie powala na nieco głębszą refleksję nad różnymi aspektami, jeśli chodzi o dobre praktyki, również w kontekście wytycznych FAIR. Należy też zauważyć, że pozostawanie w zgodzie z tymi praktykami nieść może mniejszy lub większy narzut, czyli wymagać dodatkowych wysiłków ze strony wdrażających je badaczy, dlatego też momentem ich wdrażania powinien być etap publikacji wyników (czyli „otwierania” danych badawczych), zaś w fazie prowadzenia badań można rozważyć fakultatywne wykorzystanie wybranych zasad, jeśli pozwoli to poprawić jakość procesu badawczego bez generowania nadmiernych dodatkowych obciążeń. Powinno to być opisane w planie zarządzania danymi badawczymi, jednak ponieważ ten artykuł koncentruje się na publikowaniu danych badawczych, zagadnienia związane z samym planem zarządzania zostają pominięte.

Metadane (ang. metadata)

Najlepszą wskazówką dla wszystkich przedstawionych tu praktyk, ale dla wymiaru metadanych w szczególności, byłaby: „pozostaw (opublikuj) swoje dane w taki sposób, w jaki sam chciałbyś je zastać (otrzymać)”. Oznacza to, że dane powinny być w jednoznaczny sposób opisane co do ich struktury, pochodzenia, sposobu gromadzenia i utrwalenia w postaci plików końcowych. Jeśli chodzi o strukturę czy też inaczej użyte paradygmaty do opisu modelowanej dziedziny, ważne jest wskazanie, czy dane mają charakter dokumentowy (obiektowy), relacyjny, grafowy, hierarchiczny, tekstowy czy inny. W przypadku złożonych pojęciowo modeli należy opisać zależności występujące między poszczególnymi pojęciami oraz wskazać, gdzie w strukturze plików występują poszczególne pojęcia oraz powiązania z innymi. Wygodne może się okazać sięgnięcie po któryś z graficznych języków modelowania strukturalnego/obiektowego, jak na przykład diagram klas czy diagram obiektów standardu UML (ang. Unified Modeling Language). Mimo że język ten postrzegany jest jako zdefiniowany szczególnie na użytek nauk technicznych, to znajduje on zastosowanie również w wielu innych obszarach, a przy jego opracowywaniu przyświecał cel maksymalnej użyteczności, czyli w przypadku nieskomplikowanej struktury jej modele w nim wyrażone są również bardzo proste. Opis zbioru danych powinien również zawierać informacje, w jaki sposób i przy jakich warunkach zostały one pozyskane, przy użyciu jakich narzędzi były gromadzone i wreszcie, jak zostały przetworzone w celu ich utrwalenia do postaci końcowej.

Mimo że wiele formatów plików zawiera w sobie pewne metadane (np. pliki zawierające treści multimedialne), to jeśli wartości tych metadanych mogą mieć znaczenie w procesie badawczym, warto rozważyć, czy nie wyspecyfikować ich dodatkowo, gdyż narzędzia wykorzystywane przez innych badaczy mogą takie wewnętrzne zapisy interpretować inaczej niż narzędzie użyte przez upubliczniającego dane. Jeżeli wolumen danych jest na tyle znaczny, że pobranie archiwum mogłoby się wiązać z zaangażowaniem znacznych środków technicznych lub czasowych, warto rozważyć opublikowanie również reprezentatywnej próbki danych (ang. sample), tak aby zainteresowani mogli w łatwy sposób zweryfikować, czy dany zbiór spełnia ich oczekiwania.

Interoperacyjność (ang. interoperability)

Formaty danych stanowią pewnego rodzaju standardy cyfrowego kodowania plików, w których przechowywane są opisy obiektów wybranej dziedziny na zadanym poziomie abstrakcji. Niestety współcześnie – z powodów takich jak różnorodność architektur komputerowych, różnice kulturowe społeczeństw, długa już obecność technologii cyfrowych zarówno w świecie komercji, jak i nauki czy wreszcie konkurowanie między sobą poszczególnych dostawców oprogramowania – istnieje cała mnogość formatów danych przeznaczonych do różnych zastosowań. Nie trzeba sięgać daleko, aby dojrzeć wynikające z tego problemy, gdyż wystarczy przyjrzeć się jednemu z najstarszych formatów danych – plikom tekstowym. Początkowo istniejący standard ASCII (ang. American Standard Code for Information Interchange) okazał się niewystarczający do kodowania znaków diakrytycznych alfabetu wielu języków, co zaowocowało powstaniem szeregu jego rozszerzeń. Jednak dalej nie umożliwiało to posługiwania się znakami diakrytycznymi pochodzącymi z różnych alfabetów w jednym pliku równocześnie. Zaowocowało to powstaniem całej rodziny standardów UTF (ang. Universal Coded Character Set Transformation Format), z którego największą popularność zdobył UTF-8. Standard nie precyzuje jednak kolejności kodowania bajtów dla znaków kodowanych słowem dłuższym niż jeden bajt, stąd potrzeba używania dodatkowego znacznika BOM (ang. byte order mark). Dodatkowo najbardziej popularne systemy operacyjne – Linux i Windows – w odmienny sposób kodują znaczniki końca linii. Aby jednak nie ograniczać rozważań tu prowadzonych jedynie do identyfikacji zagrożeń, a rozszerzyć je o wskazówki praktyczne, zaproponować można używanie standardów otwartych w miejsce prawnie zastrzeżonych, na przykład dla plików programów pakietów biurowych używanie formatu OpenDocument (znany również jako ODF oraz ISO/IEC 26300), co nie będzie zmuszało przyszłych użytkowników publikowanych dokumentów do kupowania własnościowych pakietów oprogramowania biurowego.

Kolejna wskazówka dotyczy wyboru formatu opisującego dane na najwyższym możliwym poziomie abstrakcji, np. jeśli badaniu podlegały rękopisy, ale badano jedynie treści zapisów, a ich forma nie miała znaczenia, lepiej będzie udostępnić je jako pliki tekstowe niż graficzne. Podobnie jeśli dane miały układ relacyjny i wykorzystywano konkretny system zarządzania bazą danych, korzystniej będzie nie zmuszać przyszłych użytkowników tych danych do zastosowania tego samego systemu, a dać im możliwość wyboru spośród wielu dostępnych platform SQL (ang. structured query language). Sprzyjać będzie temu udostępnienie danych w postaci plików CSV (ang. comma seperated values) eksportowanych dla każdej relacji z osobna.

Integralność (ang. integrity)

Integralność danych to ważna cecha pozwalająca mieć pewność, że wcześniej zdeponowany w repozytorium zbiór danych jest identyczny z tym, którego ktoś używa ponownie do innych badań. Współczesne technologie składowania i teletransmisji danych nie są niezawodne i mogą powodować przekłamania polegające na tym, że fragmenty pobieranych plików będą inne niż plików źródłowych. Aby temu zapobiec, powszechnie stosowane są mechanizmy sum kontrolnych wyliczanych przy pomocy znanych algorytmów implementujących funkcje skrótu (ang. hash functions). Polega to na tym, że dla źródłowego zbioru plików wyliczana jest wartość wybranej funkcji skrótu (będąca niczym innym jak pewnym łańcuchem znakowym) i publikowana w repozytorium razem z danymi. Badacz zainteresowany danym zbiorem pobiera go z repozytorium, a następnie ma możliwość wyliczenia wartości tej funkcji w swoim lokalnym środowisku. Jeśli łańcuchy znaków będą identyczne, istnieje duże prawdopodobieństwo (graniczące z pewnością), że jego kopia danych jest identyczna ze źródłową. Powszechnie wykorzystywanym obecnie przez wiele repozytoriów danych standardem jest MD5 (ang. Message-Digest algorithm 5).

Spójność (ang. consistency)

O ile wcześniej opisana integralność jest cechą pozwalającą na uniknięcie błędów powstałych na poziomie infrastruktury technicznej, o tyle spójność dotyka warstwy logicznej, a konkretnie sytuacji, kiedy dane opisują struktury złożone lub zależne. Prostym przykładem może być opisująca artykuły naukowe baza danych, w której w osobnym pliku przechowuje się dane dotyczące artykułów, a w osobnym dane dotyczące autorów. Brak opisu atrybutów autora, mimo że figuruje on w jednym z artykułów, stanowi niespójność mogącą świadczyć o utracie kontroli nad procesem badawczym albo błędach w procesie transformacji danych do postaci sprzyjającej ich publikacji. Dlatego też po przygotowaniu danych do postaci, w której zamierza się je opublikować, warto wykonać transformację odwrotną, czyli zasilić nimi środowisko badawcze i zweryfikować, czy otrzymano stan bliźniaczy z danymi wyjściowymi.

Cytowalność (ang. citability)

Mimo że historycznie w literaturze naukowej spotkać można różne podejścia do cytowania danych badawczych, w których często autorzy poszczególnych zbiorów danych, udostępnianych czy to na instytucjonalnych stronach internetowych, czy w repozytoriach, sugerują, w jaki sposób użytkownicy tych danych powinni zaznaczać w tekstach fakt ich wykorzystania, to współcześnie wytyczonym, wdrożonym i doskonale się już sprawdzającym standardem identyfikacji „produktów” naukowych, czy są nimi artykuły, czy właśnie zbiory danych, jest mechanizm DOI (ang. digital object identifier). Konsekwentne stosowanie DOI, a w przypadku większości poważanych repozytoriów danych DOI jest nadawane przez nie automatycznie, pozwoli w krótkim czasie i w łatwy sposób zweryfikować i kontrolować popularność poszczególnych zbiorów danych, co z kolei pozwoli badaczom dokonywać bardziej świadomych wyborów w przypadku istnienia zbiorów alternatywnych. Warto tutaj zaznaczyć, że w interesie samych autorów zbiorów badawczych ważne jest zadbanie o identyfikację jednoznaczną, czyli posługiwanie się tylko jednym DOI dla konkretnego zbioru. Chcąc zwiększyć popularność publikowanego zbioru, można ulec pokusie publikowania go w wielu repozytoriach niezależnie, ale warto wtedy zadbać, żeby każde z repozytoriów nie nadało innego identyfikatora DOI. Zwykle podczas deponowania zbioru danych w repozytorium istnieje możliwość nadania mu identyfikatora przez repozytorium albo zarejestrowania identyfikatora nadanego wcześniej.

Wersjonowanie (ang. versioning)

W wielu przypadkach badania prowadzi się na danych odzwierciedlających stan przedmiotu badań (np. populacji) w danym czasie. Wypracowana metodyka może zostać zaaplikowana ponownie po upływie pewnego interwału czasu do uaktualnionego zbioru danych, a uzyskane wyniki przedstawiać nowszy stan wiedzy naukowej na dany temat. Jest to najczęstszy, choć niejedyny, powód do zastosowania techniki wersjonowania danych, którą wspierają już niektóre repozytoria. W takich przypadkach powinno się nadać identyfikator DOI każdej wersji badawczego zbioru danych oraz dodatkowo wszystkim wersjom, jako pewnemu konceptowi reprezentującemu podobną metodę zbierania danych czy celowi badawczemu przyświecającemu powołaniu tych zbiorów do życia. Daje to przyszłym użytkownikom zbioru danych możliwość jego identyfikacji na poziomie konkretnej wersji lub też/i niezależnie od niej.

Dostępność (ang. availability)

Dostępność danych upublicznionych w sieci Internet rozumiana być może w wymiarach fizycznym i prawnym. Pierwszy oznacza m.in. gwarancję możliwości dostępu do danych niezależnie od zdarzeń losowych mogących negatywnie wpłynąć na infrastrukturę, w której są one przechowywane. Najlepszą metodą uniezależnienia się od takich zdarzeń jest replikacja danych pomiędzy geograficznie oddalonymi centrami przetwarzania danych. Choć podejście takie mogłoby być trudne i kosztowne w implementacji przez mniejsze instytucjonalne repozytoria danych, które wdrażają rozwiązania w oparciu o infrastrukturę własną, to duże ogólnoeuropejskie i ogólnoświatowe repozytoria szczycą się już takimi właśnie mechanizmami. Czynnik ten powinien więc być brany pod uwagę, oczywiście jako jeden z wielu, przy wyborze miejsca deponowania własnych danych.

Wymiar prawny dostępności danych określa z kolei ramy, w jakich możemy dysponować czyjąś własnością intelektualną, którą stanowią dane przez kogoś zebrane i opracowane. O ile charakter udostępnianych danych nie powoduje naruszeń innych regulacji prawnych czy etycznych, istnieje tutaj pełna dowolność w wyborze modelu licencjonowania danych, a najczęściej wybiera się te, które również towarzyszą publikowaniu prac naukowych w formie open access.

* * *

Proces „otwierania i kurowania” danych badawczych rozpoczął się w kraju stosunkowo niedawno, ale w dość gwałtownym i nakazowym trybie, co przy braku odpowiedniej kampanii uświadamiającej mogło w nas budzić uśpione dziecięce instynkty buntownicze. Mam nadzieję, że w tym artykule udało mi się przedstawić dobre intencje „rodzica” i korzyści płynące dla nas samych z dodatkowego wysiłku, który należy włożyć w odpowiednie przygotowanie danych badawczych do ich upublicznienia.

Mam świadomość poziomu ogólności przedstawionych rozważań, ale też uważam, że na takim należało pozostać, a dalsze prace nad rozwojem dobrych praktyk pozostawić już społecznościom poszczególnych dziedzinowych obszarów badawczych. Koleżanki i kolegów z mojej dyscypliny, którzy szukają odpowiedniego miejsca do publikowania swoich danych, zapraszam natomiast do repozytorium Zenodo, gdzie od roku 2017 skupiam społeczność zainteresowaną tematyką bibliometryczną (https://zenodo.org/communities/bibliometrics).

Dr Anna Małgorzata Kamińska, adiunkt Instytutu Nauk o Kulturze Uniwersytetu Śląskiego. Jej zainteresowania badawcze obejmują problematykę komunikacji naukowej, naukometrii oraz bibliotekoznawstwa i informacji naukowej. Teorię z praktyką pozwala jej łączyć praca w Bibliotece Politechniki Śląskiej w Gliwicach.

Wróć