Tomasz Zając

Dane rejestrowe w badaniach społecznych

Fot. Stefan Ciechan

Dane pochodzące z rejestrów tworzonych przez organy administracji publicznej dają niespotykane możliwości prowadzenia badań wzdłużnych dotyczących bardzo szczegółowych zagadnień. W tym artykule chciałem przybliżyć czytelnikom tego rodzaju badania, które będą zajmowały w moim przekonaniu coraz bardziej prominentną pozycję w naukach społecznych.

W ostatnim czasie w Internecie krążą memy żartujące z najpopularniejszych typów artykułów w różnych dziedzinach nauki. Wśród tytułów mających reprezentować typy publikacji socjologicznych znalazła się przeprowadzona w Skandynawii analiza danych rejestrowych wskazująca na związek pomiędzy mobilnością społeczną a udziałem owsianki w diecie dziadków. Choć trudno uznać memy internetowe za poważne źródła, to niekiedy obserwacje są bardzo trafne. Tak jest w tym wypadku. Zwraca on uwagę na dwie kwestie. Po pierwsze, dane pochodzące z rejestrów tworzonych przez organy administracji publicznej dają niespotykane możliwości prowadzenia badań wzdłużnych dotyczących bardzo szczegółowych zagadnień. Po drugie, istnieje duże prawdopodobieństwo, że autorami tego typu publikacji są badacze skandynawscy. Kraje skandynawskie mają bowiem długą tradycję wykorzystywania danych rejestrowych w badaniach społecznych. W tym artykule chciałem przybliżyć czytelnikom tego rodzaju badania, które będą zajmowały w moim przekonaniu coraz bardziej prominentną pozycję w badaniach społecznych.

Specyfika badań wykorzystujących dane administracyjne

Badania oparte na danych z rejestrów administracyjnych odróżniają się od tradycyjnych badań społecznych tym, że dane nie są zbierane w trakcie wywiadów czy ankiet. Za gromadzenie informacji odpowiada administracja, najczęściej publiczna. Dzieje się to w ramach różnego rodzaju procesów administracyjnych, wypełniania obowiązków urzędowych czy też świadczenia usług publicznych. Przykładowo informacje o zarobkach gromadzone są w związku z płaceniem podatków lub odprowadzaniem składek na ubezpieczenia społeczne. Informacje na temat podejmowanych studiów czy uzyskanych dyplomów przekazywane są przez uczelnie do centralnych repozytoriów w związku z finansowaniem edukacji wyższej ze środków publicznych. Podobnie rejestrowane są różnego rodzaju świadczenia wypłacane przez państwo. Dane te mogę zostać następnie poddane odpowiedniej obróbce i wykorzystane do prowadzenia analiz. Zbiory analityczne używane przez badaczy są więc niejako efektem ubocznym procesów administracyjnych.

Powstało już niemało publikacji, również w języku polskim, wskazujących na zalety wykorzystania danych rejestrowych w badaniach społecznych. Największą spośród nich wydaje się dostęp do informacji dotyczących całych populacji. Nawet największe badania sondażowe obejmują z reguły jedynie pewne wycinki populacji będących przedmiotem zainteresowania badaczy. W przypadku badań reprezentacyjnych, tj. opartych na próbie, wyniki obarczone są zawsze niejaką niepewnością. Problem ten jest znacznie mniejszy lub wręcz znika w przypadku wykorzystania danych populacyjnych.

Innym problemem, na który często natrafiają badacze chcący skoncentrować się na małym wycinku populacji, jest brak odpowiednich danych. O ile nie zostały przeprowadzone badania specjalnie dla danej zbiorowości, co jest kosztowne, to pozostaje wykorzystanie szerszych danych, np. reprezentatywnych dla całego kraju. W takim przypadku często jednak problematyczna okazuje się niewielka liczba obserwacji. Na przykład jeśli obiektem zainteresowania badaczy jest grupa stanowiąca 1% całej populacji, to w reprezentatywnej próbie liczącej 10 tys. osób, a więc bardzo dużej, możemy spodziewać się jedynie około 100 osób należących tej grupy. Jakiekolwiek analizy w podgrupach, wyróżnionych chociażby ze względu na płeć czy wiek, oznaczają wnioskowanie na podstawie wyników zebranych dla kilkunastu do kilkudziesięciu osób. W badaniach populacyjnych tego typu problemy występują znacznie rzadziej.

Kolejnym obszarem, w którym dane rejestrowe są szczególnie przydatne, są badania wzdłużne, skupione na trendach oraz relacjach między zdarzeniami odległymi w czasie. W rejestrach administracyjnych zbierane są zapisy kompletnych sekwencji zdarzeń. Przykładowo rejestry ZUS zawierają zapisy wszystkich odprowadzanych składek, co pozwala odtworzyć status poszczególnych osób na rynku pracy w kolejnych miesiącach, a także przeanalizować trajektorie zarobków. Szczególnie użyteczne są dane transakcyjne zawierające zapisy poszczególnych zdarzeń, np. informacje na temat zapisów na zajęcia na uczelni, stopnie uzyskane w trakcie studiów czy też uzyskane świadczenia medyczne. Ponieważ dane są gromadzone przez wiele lat, możliwe jest nie tylko śledzenie historii jednostki, ale nawet zbadanie relacji między pokoleniami. Zebranie równie dokładnych danych metodą sondażową jest znacznie trudniejsze, a często wręcz niemożliwe. Jednym rozwiązaniem jest wielokrotny kontakt z badanymi, jak to ma miejsce w badaniach panelowych. Drugim jest poproszenie badanych o opisanie zdarzeń z przeszłości. Oba rozwiązania są obciążające dla badanych, obciążone błędami i kosztowne, a dane niekoniecznie będą dokładniejsze niż te zbierane w rejestrach. Nawet przy corocznym kontakcie z badanymi trudno oczekiwać, że będą zawsze potrafili (i chcieli) odtworzyć w trakcie wywiadu zarobki z kolejnych miesięcy. Jeszcze trudniej wymagać podania tak szczegółowych informacji w kwestionariuszu dotyczącym wielu lat. W badaniach opartych na danych rejestrowych nie jest konieczne poleganie na pamięci badanych, która może być zawodna. Nie ma też problemu odmów odpowiedzi.

Dodatkowo, ze względu na swój charakter, dane administracyjne są często dokładniejsze i lepiej zweryfikowane niż informacje zbierane w badaniach sondażowych. Wynika to z faktu, że dane te są podstawą podejmowania decyzji administracyjnych i rozliczeń. Dobrym przykładem są dane dotyczące dochodów z różnych źródeł. Wielu badanych uchyla się od odpowiedzi na pytania dotyczące dochodu. Osoby chcące udzielić odpowiedzi mogą mieć trudności z pamiętaniem, ile zarobiły z różnych źródeł, a także z dokonywaniem operacji matematycznych, np. sumowaniem dochodu dla pewnego okresu lub dla gospodarstwa domowego. Kolejne trudności mogą wynikać z konieczności podania kwoty netto lub brutto. Sięgnięcie po dane podatkowe, np. zeznania roczne, pozwala na uniknięcie tych problemów.

Niezwykle istotnym argumentem przemawiającym za wykorzystaniem danych rejestrowych jest ich relatywnie niska cena. Znika bowiem największy koszt badań sondażowych, czyli zbieranie danych. To zadanie zostało już wykonane przez administrację w ramach realizacji jej zadań statutowych. Nie oznacza to jednak, że tego typu badania można prowadzić całkowicie bezkosztowo. Eksport danych z rejestrów, łączenie informacji z różnych źródeł oraz odpowiednie zabezpieczenie danych wiążą się z kosztami. Oszczędności nadal są jednak znaczne.

Przykłady badań wykorzystujących dane rejestrowe

W literaturze nie brakuje przykładów badań ilustrujących możliwości, jakie stwarzają dane administracyjne. Dane zebrane przez Statistisk sentralbyrå, Norweski Urząd Statystyczny, posłużyły Elisabeth Hovdhaugen (2009) do badania losów edukacyjnych osób, które przerwały studia i pokazania, że porzucenie studiów z reguły nie oznacza odejścia z systemu szkolnictwa wyższego, ale jedynie transfer do innej instytucji. Z kolei Liza Reisel (2011)”type” : „article-journal”, „volume” : „84” }, „suppress-author” : 1, „uris” : [ „http://www.mendeley.com/documents/?uuid=ede5ece6-7602-483b-8ff6-75478382a7dd” ] } ], „mendeley” : { „formattedCitation” : „(2011 przeanalizowała dane dotyczące dwunastu lat losów młodzieży w wieku od 15 do 17 lat, żeby pokazać wpływ pochodzenia społecznego na osiągany poziom wykształcenia. Jeszcze dłuższy okres przeanalizowali Manudeep Bhuller, Magne Mogstad i Kjell G. Salvanes (2011, 2014) w badaniu związków pomiędzy zarobkami osiąganymi w ciągu całego życia a edukacją. Badanie dotyczyło populacji mężczyzn urodzonych w Norwegii w latach 1943-1963 i wykorzystywało dane dotyczące zarobków z lat od 1967 do 2010.

Nie mniej interesujące są badania prowadzone z wykorzystaniem danych SCB, czyli szwedzkiego urzędu statystycznego. Francis Kramarz i Oskar Nordström Skans (2014) przenalizowali siedem lat historii zawodowych osób, które zakończyły edukację na poziomie średnim lub wyższym w latach 1988-95, aby pokazać jak sieci rodzinne oraz charakterystyki przedsiębiorstw, w których pracują rodzice, wpływają na szanse tego, że dzieci podejmą pracę w tej samej firmie co rodzice. Badanie pokazało, że rola więzi rodzinnych jest znaczna, w szczególności kiedy dzieci miały niższe osiągnięcia edukacyjne, a sytuacja na rynku pracy była trudniejsza. Natomiast badanie, które przeprowadzili Maria Polyakova, Petra Presson, Katja Hofmann i Anupam B. Jena (2020), pokazało rosnącą dziedziczność zawodu lekarza w Szwecji. W ciągu trzech dekad odsetek lekarzy, których jedno z rodziców było lekarzem, wzrósł trzykrotnie i osiągnął poziom około 20%. Z kolei Petra Persson i Maya Rossin-Slater (2018) pokazały, że stres związany z utratą bliskich, jakiego matka doświadcza w trakcie ciąży, powiązany jest z wyższym prawdopodobieństwem zażywania przez dziecko leków stosowanych w leczeniu ADHD w dzieciństwie oraz antydepresantów w późniejszym okresie.

Badanie wykorzystujące dane rejestrowe nie ograniczają się jednak wyłącznie do Skandynawii. Jan Kabátek i Francisco Perales (2020) wykorzystali holenderskie dane administracyjne, aby pokazać, że dzieci wychowywane przez pary jednopłciowe nie mają gorszych osiągnięć edukacyjnych, w tym wyników standaryzowanych testów, szansy ukończenia szkoły lub też pójścia na studia wyższe. Wcześniejsze badania borykały się z problemem za małych prób. W tym wypadku badacze, mając dostęp do danych całej populacji dzieci (około 1,5 mln), mogli przeanalizować trajektorie edukacyjne ponad 3000 dzieci wychowywanych przez pary jednopłciowe.

Szerokim echem w świecie odbiły się badania Raja Chetty, Johna Friedmana, Emmanuela Saeza, Nicholasa Turnera i Danny’ego Yagana (2017), w których wykorzystali dane podatkowe oraz dane dotyczące edukacji, żeby przenalizować międzypokoleniową mobilność społeczną w Stanach Zjednoczonych. Analiza wykazała m.in., że szanse dostania się na studia na prestiżowej uczelni należącej do Ligi Bluszczowej były 77 razy większe wśród dzieci pochodzących z rodzin należących do 1% o najwyższych dochodach niż wśród dzieci z 25% najbiedniejszych rodzin.

Rosnąca popularność danych administracyjnych

Badania wykorzystujące dane rejestrowe są coraz popularniejsze. Ma to związek z rosnącym zainteresowaniem ze strony administracji, na które złożyło się kilka trendów. Coraz większy nacisk kładziony jest na prowadzenie polityk na podstawie faktów (ang. evidence-based policy-making) oraz na transparentność i otwieranie danych. Jednocześnie rośnie świadomość wartości zasobów danych, jakimi dysponuje administracja publiczna. Nie bez znaczenia jest także rozwój technologii cyfrowej i wiązana z nim większa dostępność i popularność narzędzi spod znaku Big Data i sztucznej inteligencji.

Wytworzenie mechanizmów pozwalających generować z danych rejestrowych zasoby analityczne, czyli zbiory, na których możliwe jest prowadzenie analiz, bywa dość żmudnym zadaniem. Trudności techniczne mają z reguły znaczenie drugorzędne. Istotną przeszkodą są obawy dotyczące ochrony prywatności oraz bezpieczeństwa danych. Nie bez znaczenia jest też lęk gestorów danych przed zbytnim odkrywaniem się i utratą kontroli nad tym, w jaki sposób ich dane są analizowane i jakie wnioski z tych analiz są wyciągane. Przygotowanie rozwiązań prawnych i organizacyjnych pozwalających na łączenie danych z różnych rejestrów i wykorzystanie ich w analizach jest, szczególnie na początku, czasochłonne.

Należy się spodziewać, że coraz więcej zasobów będzie ze sobą łączonych. Po pierwsze, jasne stają się korzyści z wykorzystania danych rejestrowych. Po drugie, instytucje oswajają się z wykorzystaniem danych do badań. Po trzecie, każdy kolejny projekt będzie mógł wykorzystywać wcześniejsze doświadczenia, co powinno znacznie przyspieszyć proces łączenia i wykorzystywania danych. Po czwarte, w miarę otwierania się rejestrów będą pojawiać się nowe pytania badawcze i pomysły włączenia do analiz nowych zasobów danych.

Dobrą ilustrację rosnącej popularności wykorzystania danych rejestrowych w badaniach społecznych stanowią powstające na świecie systemy monitorowania losów absolwentów. Niegdyś tego typu badania były zdominowane przez ankiety prowadzone wśród absolwentów, z reguły niezbyt długo po zakończeniu nauki. Kraje skandynawskie były pionierami w wykorzystaniu danych z rejestrów do systematycznego monitorowania sytuacji zawodowej absolwentów. W Europie z podobnych rozwiązań korzystają obecnie także Austria, Flandria, Litwa, Słowacja i Węgry. Polska znajduje się w tej dziedzinie w czołówce europejskiej. Prace nad wykorzystaniem w tym celu danych ZUS rozpoczęły się przeszło dekadę temu i zaowocowały uruchomieniem Systemu Monitorowania Losów Ekonomicznych Absolwentów (ELA) w 2015 r. Wkrótce działać będzie podobny system monitorujący losy zawodowe absolwentów szkół zawodowych.

Mechanizmy udostępniania danych naukowcom

Obecnie potencjał naukowy systemów takich jak ELA nie jest w pełni wykorzystywany. Wprawdzie na podstawie danych ELA powstają publikacje naukowe, lecz przy obowiązujących regulacjach prawnych dostęp do zbiorów może mieć jedynie ograniczona grupa badaczy. Zdecydowanie lepszym rozwiązaniem jest stworzenie infrastruktury umożliwiającej bezpieczne łączenie danych z różnych rejestrów i udostępnianie zanonimizowanych danych jednostkowych zarówno analitykom z agencji rządowych, jak i naukowcom. W tej chwili zaledwie kilka państw zbudowało tego rodzaju rozwiązania.

Jednym z przykładów jest australijski Multi-Agency Data Integration Project (MADIP), system będący efektem współpracy między Australian Bureau of Statistics (ABS), Australian Taxation Office, Department of Education, Skills and Employment, Department of Health, Department of Social Services i Services Australia. ABS jest odpowiedzialny za łączenie danych oraz ich udostępnianie. Dostępne zasoby obejmują charakterystyki demograficzne, dane podatkowe, informacje dotyczące miejsca zamieszkania, edukacji na poziomie wyższym, świadczeń socjalnych oraz usług medycznych, jak również informacje zebrane w ramach spisów powszechnych, a więc są bardzo szerokie.

Dostęp do zasobów MADIP mają zarówno agencje federalne i stanowe, jak i pracownicy instytucji badawczych, lecz analiza danych została obwarowana wieloma mechanizmami kontrolnymi, by odpowiednio chronić dane obywateli. Udostępniane są tylko elementy potrzebne do uzyskania odpowiedzi na pytania badawcze. Przed udostępnieniem dane są anonimizowane. Aby korzystać ze zbiorów, należy przejść odpowiednie szkolenie. Wszelkie analizy odbywają się w DataLab, zdalnym środowisku, do którego wolno się logować wyłącznie z bezpiecznych przestrzeni. Sesje są w całości nagrywane. Przed wyeksportowaniem z systemu wyniki analiz są sprawdzane przez pracowników ABS. Jest to jedyny sposób, w jaki wyniki mogą być pobierane. Zabronione jest robienie zrzutów ekranu, a nawet odręcznych notatek, które zawierałyby jakiekolwiek wyniki analiz. Nie wolno rozmawiać o wynikach z nikim, kto nie należy do zespołu projektowego. Kary za złamanie zasad są bardzo surowe. Indywidualni badacze, a nawet całe instytucje, mogą stracić dostęp do danych, w skrajnych wypadkach naruszenie zasad może wiązać się z odpowiedzialnością karną i pobytem w więzieniu.

Jak nie zostać w tyle?

Bez dostępu do odpowiednich danych nie da się prowadzić badań naukowych. W Polsce brakuje, w znacznej mierze ze względu na ich wysoki koszt, badań wzdłużnych na dużych próbach, takich jak np. brytyjskie ONS Longitudinal Study, Understanding Society: the UK Household Longitudinal Study czy niemiecki National Educational Panel Study. Trudno jest przez to prowadzić pewne typy badań, co ogranicza możliwości uczestnictwa w międzynarodowej debacie naukowej.

Jednocześnie administracja gromadzi znaczne ilości danych, które dzięki powszechnemu wykorzystaniu numeru PESEL można dość łatwo łączyć. Potencjał analityczny tych danych pokazują prowadzone przez administrację projekty, takie jak ELA czy Mapa Potrzeb Zdrowotnych. Kolejnym krokiem powinno być zbudowanie mechanizmów instytucjonalnych gwarantujących dostęp do danych szerszym kręgom naukowców. Szansę na to stwarza projekt Zintegrowanej Platformy Analitycznej realizowany przez polski rząd we współpracy z naukowcami z Uniwersytetu Warszawskiego oraz Szkoły Głównej Handlowej. Projekt ma na celu zintegrowanie różnego rodzaju zasobów danych, a także przygotowanie zasad ich wykorzystania. Zakłada też szeroką współpracę ze środowiskiem naukowym. Jeśli w następstwie projektu uda się wytworzyć trwałe mechanizmy udostępniania danych do celów naukowych, z pewnością dowiemy się wiele na temat polskiego społeczeństwa. Powinniśmy też móc się spodziewać wzrostu liczby polskich publikacji w prestiżowych czasopismach naukowych, co też nie jest bez znaczenia.

Dr Tomasz Zając, The University of Queensland, Australia

Wróć