Jacek Wolski

Jakość czy ilość? Oto jest pytanie

Rys. Sławomir Makal

Termin niepewność, sięgający korzeniami do epoki oświecenia, jest właśnie poszukiwanym pomostem łączącym nauki ścisłe i przyrodnicze. W tych drugich błąd nie jest bowiem synonimem „pomyłki”, ale oznacza niemożliwą do uniknięcia niepewność, którą można zdefiniować jako świadomość badacza, że istnieje różnica między zgromadzonymi informacjami o środowisku (danymi), a „realnym” środowiskiem.

Słowo błąd w potocznym znaczeniu ma wydźwięk pejoratywny, sugeruje bowiem, że popełniono coś, co narusza przyjęte zasady. W sensie matematycznym czy statystycznym tzw. błąd prawdziwy oznacza różnicę między wartością zmierzoną, a rzeczywistą lub oczekiwaną. Przyjęcie takiej definicji nie jest jednak możliwe w naukach przyrodniczych czy naukach o Ziemi, bowiem błąd nie zawsze może być obliczony (często nie znamy ani wartości rzeczywistej, ani oczekiwanej).

Podobne „zero-jedynkowe” podejście prezentuje logika formalna, na prawach której bazuje teoria zbiorów klasycznych, charakteryzujących się jednoznacznie zdefiniowanymi granicami i przynależnością obiektów wynikającą z teorii prawdopodobieństwa: 0 – obiekt nie należy (zbiór pusty), 1 – obiekt należy (zbiór niepusty). W sukurs przychodzi dopiero logika wielowartościowa, uwzględniająca sens ilościowy i ciągłą zmienność zjawiska w przestrzeni (odpowiednik przyrodniczego kontinuum). Na jej prawach bazuje teoria zbiorów rozmytych, charakteryzujących się brakiem jednoznacznie zdefiniowanych granic i przynależnością obiektów wynikającą z teorii możliwości: 0 – obiekt całkowicie nie należy, od 0 do 1 – obiekt częściowo należy, 1 – obiekt całkowicie należy. Jednak i w tym przypadku podejmowanie decyzji o zaliczeniu elementu do zbioru obarczone jest niepewnością, bowiem: 1) definicja zbioru może być niejednoznaczna, 2) definicja elementu może być niejednoznaczna, 3) może nie być wystarczających przesłanek do zaliczenia elementu do zbioru. Wystąpienie problemów „nieostrych” nie kwalifikuje ich automatycznie do zakresu stosowalności teorii zbiorów rozmytych. Decydującym kryterium musi być stwierdzenie, że analizowany zbiór jest sam w sobie niejednoznaczny (np. teren płaski / nachylony / stromy / urwisty).

Termin niepewność, sięgający korzeniami do epoki oświecenia (krzywa dzwonowa Gaussa i Laplace’a, uznawana obecnie za krzywą błędu pomiarowego), jest właśnie poszukiwanym pomostem łączącym nauki ścisłe i przyrodnicze. W tych drugich błąd nie jest bowiem synonimem „pomyłki”, ale oznacza niemożliwą do uniknięcia niepewność, którą można zdefiniować jako świadomość badacza, że istnieje różnica między zgromadzonymi informacjami o środowisku (danymi) a „realnym” środowiskiem. Takie podejście nawiązuje do charakterystyki błędów przypadkowych, które są nierozerwalnie związane z istotą każdego pomiaru (w odróżnieniu od błędów systematycznych i grubych). Niepewność może mieć charakter stochastyczny albo epistemiczny. W tym pierwszym przypadku związana jest z naturą danych (nie wiemy dokładnie, co obserwujemy lub mierzymy), a w drugim – z regułami, kiedy nie jesteśmy pewni wyciągniętych wniosków. Tym samym tzw. błędne dane są w rzeczywistości: niejednoznaczne, niepełne, niepewne/nieokreślone albo nieprecyzyjne. Epistemiczny charakter niepewności wpisuje się w teorię Dempstera-Shafera, która stanowi rozszerzenie teorii subiektywnego prawdopodobieństwa Bayesa. O ile jednak w tej drugiej brak dowodów za hipotezą stanowi dowód przeciw niej (co często nie jest spełnione w realnym świecie), to podstawowym założeniem teorii Dempstera-Shafera jest istnienie w zakresie wiedzy obszarów ignorancji. Niepewność traktowana jest jako atrybut obserwatora i jest miarą stopnia jego niewiedzy o obserwowanym zjawisku.

Klasycznym przykładem niepewności jest pytanie: którędy poprowadzić granice? Jak wyznaczyć zasięg grup etnograficznych w sytuacji, gdy elementy kultury materialnej i niematerialnej przenikają się wzajemnie, a strefy dwustronnych wpływów liczą dziesiątki kilometrów albo obejmują wiele wsi? Jak podczas kartowania terenowego wyznaczyć, gdzie kończy się las, gdy szerokie ekotony budowane przez okrajki i oszyjki nie tworzą już wysokopiennego i zwartego drzewostanu, ale wciąż nie są jeszcze łąką? No i w końcu – jak te zjawiska oddać na mapie w postaci sygnatury liniowej?

Wprowadź śmiecie, otrzymasz śmiecie

Na co dzień nie myślimy o tym, jak często towarzyszą nam mapy, a już z pewnością nie zastanawiamy się nad poziomem wiarygodności danych cyfrowych zwizualizowanych za pomocą metod prezentacji kartograficznej. Bo obecna mapa, to już coś znacznie więcej niż strona atlasu pachnąca bibliotecznym zapomnieniem czy poprzecierana w miejscach załamań wierna towarzyszka naszych turystycznych wędrówek. To baza danych, zawierająca logicznie powiązane i możliwe do opisania programowalnym językiem zapytań atrybuty opisowe, która wraz z ich reprezentacją graficzną w postaci obiektów o ściśle określonym charakterze geometrycznym, topologicznym i topograficznym tworzy komplementarną całość – model przystosowany do przetwarzania w systemach informacji geograficznej (GIS).

Dzięki geolokalizacji dane zyskały aspekt przestrzenny, a wraz z nim zupełnie nowy wymiar i walor. GIS w Polsce stanowi fundament wielkich przedsięwzięć informatycznych, jak choćby System Identyfikacji Działek Rolnych (LPIS), System Informatyczny Lasów Państwowych (SILP), Informatyczny System Osłony Kraju przed nadzwyczajnymi zagrożeniami (ISOK), Baza Danych Obiektów Topograficznych (BDOT10k), ewidencja gruntów i budynków (EGiB) i wiele innych. Systemy informacji geograficznej wykorzystywane są w pracach jednostek samorządowo-terytorialnych wszystkich szczebli, w transporcie (logistyka, spedycja), bezpieczeństwie publicznym (zastosowania militarne, sytuacje kryzysowe), przez służby mundurowe i ratunkowe. Z pomocą GIS-u prowadzi się liczne obserwacje monitoringowe, buduje bazy tematyczne, wykonuje analizy zasięgów czy widoczności oraz realizuje niezliczoną liczbę projektów naukowych. GIS to w końcu nawigacje samochodowe, wszelkie geoportale czy towarzyszące nam ostatnio codziennie mapy prezentujące dynamikę pandemii Covid-19. A to tylko przysłowiowy czubek góry lodowej, bowiem możliwości potencjalnych zastosowań są właściwie nieograniczone. Oczywiście nie należy zapominać, że za pomocą systemów informacji geograficznej nie można uzyskać nieskończenie dokładnej reprezentacji poszczególnych encji świata rzeczywistego, w którym oprócz rejestrowanych widocznych obrazów ujawnione byłyby wszelkie istniejące relacje pomiędzy nimi i zależności z szeroko rozumianym otoczeniem, a także zachodzące w nim zmiany o charakterze dynamicznym. Zawsze będzie to tylko lepszy lub gorszy model.

Czy jednak możliwości technologiczne współczesnego „mapowania” przestrzeni nie powodują, że ulegamy ułudzie doskonałej jakości produktów cyfrowych? Bo jak numeryczna, to bezbłędna. Nic bardziej mylnego. W ten sposób dochodzimy do fundamentalnej zasady, którą ukuł programista IBM George Fuechsel: Wprowadź śmiecie, otrzymasz śmiecie (GIGO – Garbage In, Garbage Out). Nie będzie nadużyciem stwierdzenie, że wszystkie źródła danych w systemach informacji geograficznej mogą być obarczone błędami: poczynając od wyników badań i pomiarów terenowych (niepewność, nieświadome pomyłki i świadome zaniedbania badacza), przez tematyczne bazy danych oraz mapy analogowe i numeryczne, aż po materiały fotogrametryczne i teledetekcyjne.

Ocena jakości danych źródłowych to faza „zerowa” każdego procesu tworzenia mapy numerycznej. W dużym stopniu cechy określające jakość map papierowych i cyfrowych są podobne: dokładność, kartometryczność/precyzja (w pewnym sensie), wierność/wiarygodność, pełność treści/kompletność, czytelność/komunikatywność i aktualność. Cechy opisujące w głównej mierze lub wyłącznie jakość danych cyfrowych to: powtarzalność, rozdzielczość, zmienność, dostępność, wartość, pochodzenie, koszt pozyskania i własność. Sytuacja się dodatkowo komplikuje w przypadku starych map, o których wiemy tylko tyle, że są. W takiej sytuacji rzetelność naukowa wymaga podjęcia studiów literaturowych, które obejmą zarówno same mapy (zwłaszcza założenia kartograficzne oraz przebieg i dokładność prac topograficznych), jak i czasy, w których powstawały, w tym m.in. przeznaczenie map wpływające na ich zawartość, różnorodność systemów miar, językoznawcze podstawy nazewnictwa i inne. A gdy już ocenimy jakość pracy naszych poprzedników, to przyjrzyjmy się, gdzie sami możemy popełnić błędy.

Mapa (nie)doskonała

Bez względu na algorytm działań podczas tworzenia map numerycznych należy zacząć od wyboru jednego z dwóch schematów pojęciowych, czyli odpowiedniej metody cyfrowej reprezentacji danych przestrzennych: przez obiekty dyskretne (model wektorowy) lub pola (model rastrowy). Generalnie modele wektorowe cechują się zdolnością wiernego odtwarzania położenia i kształtu obiektów oraz możliwością zachowania topologii połączeń, zaś modele rastrowe, będące ciągłą reprezentacją encji świata rzeczywistego – prostym sposobem matematycznego definiowania oraz łatwością nakładania i agregowania warstw tematycznych, prowadzenia analiz przestrzennych, modelowania i wizualizacji. Oczywiście oba schematy pojęciowe mają też swoje wady. Podczas wyboru należy wziąć pod uwagę m.in. cel opracowania, sposób zbierania informacji i rodzaj materiałów źródłowych, docelową skalę opracowania, naturę samych danych, a także metody ich dalszych analiz oraz możliwego stopnia generalizacji.

Choć wykorzystanie danych teledetekcyjnych stało się powszechne, a w małych skalach jest wręcz normą, to wciąż jednak materiałem źródłowym jest często mapa papierowa, zwłaszcza w badaniach przyrodniczo-historycznych. Często bagatelizuje się fakt, że już sam proces skanowania niemal zawsze powoduje zniekształcenia oryginalnego obrazu. Ich źródłem może być jałowy poślizg rolek, liczba, sposób rozmieszczenia i brak kalibracji kamer CCD, źle dobrana rozdzielczość w stosunku do dokładności graficznej opracowania lub zbyt silna filtracja szumu pikselowego. A efektem ewentualnych zaniedbań są próby korygowania albo reinterpretacji rzeczywistości, podczas gdy problem zlokalizowany jest w macierzy rastra.

Jednym z najtrudniejszych etapów w tym klasycznym algorytmie tworzenia mapy numerycznej jest kalibracja, która służy do usuwania zniekształceń geometrycznych obrazów rastrowych oraz nadania im nominalnych rozmiarów. Cały proces składa się z dwóch kroków: obliczenia macierzy przekształceń oraz interpolacyjnego przepróbkowania zniekształconego obrazu do nowego rastra. W zależności od typu zniekształceń, rodzaju materiałów czy ich przeznaczenia wykorzystuje się transformacje liniowe pierwszego stopnia oraz nieliniowe wyższych stopni. Podczas kalibracji łatwo o błędy, które prowadzą do niekontrolowanych zmian geometrii i wtórnych deformacji obrazu. Pamiętajmy też, że nie ma sensu wykorzystywać zaawansowanych algorytmów interpolacyjnych do map sprzed kilku wieków, kiedy zasady kartografii matematycznej były dopiero pieśnią przyszłości, a pomiarów w terenie dokonywano z końskiego siodła metodą „na oko”.

Prawidłowo przygotowany raster należy zarejestrować w zdefiniowanym układzie współrzędnych. Kluczową decyzją jest wybór właściwego, docelowego odwzorowania i układu współrzędnych, zależny m.in. od położenia geograficznego, wielkości obszaru badań, przeznaczenia mapy, zakresu treści i skali opracowania. Wynika to z braku uogólnionego zapisu matematycznego powierzchni topograficznej Ziemi, czego konsekwencją są kolejne aproksymacje bryły naszej planety. To powoduje, że każdy punkt na Ziemi można opisać przynajmniej trzema różnymi parami współrzędnych: geograficznych astronomicznych, tzw. naturalnych (φ, λ), geograficznych geodezyjnych, tzw. elipsoidalnych (B, L, H) oraz prostokątnych płaskich (X, Y, Z). I tylko te ostatnie charakteryzują się jednoznacznie określonym położeniem punktów, ściśle zdefiniowanymi parametrami, wielkościami i rozkładem zniekształceń geometrycznych.

Bardzo istotnym krokiem jest zaprojektowanie bazy danych atrybutowych, tzw. diagramów związków encji, czyli wszystkiego, co istnieje realnie lub w wyobraźni. W praktyce chodzi o stworzenie podziału na tabele, które można będzie przeszukiwać i analizować za pomocą języka zapytań i operatorów logicznych, a po nadaniu obiektom unikalnych identyfikatorów – łączyć relacyjnie. To etap pracy, z którego większość użytkowników nie zdaje sobie nawet sprawy, jeśli nie ma konfliktów w relacjach między tablicami. Błędy w atrybutach są już jednak widoczne aż nadto i potrafią zniechęcić nawet najbardziej wyrozumiałego użytkownika. Przykładem może być baza danych zawierająca dziesiątki tysięcy nazw miejscowości z błędnymi znakami diakrytycznymi. Pół biedy, jeśli mają one charakter systematyczny (np. nieprawidłowa strona kodowa), ale jeśli są przypadkowe… Niezbędny jest więc etap normalizacji, który polega na weryfikacji poprawności struktury i spójności modelu (także na poziomie semantycznym), a co za tym idzie – integralności samych danych. Normalizacja bezwzględnie powinna obejmować: prawidłowość powiązań danych przestrzennych z atrybutami, stabilność struktur, obecność niepotrzebnych wpisów, wspomnianą poprawność nazw, adekwatność formatu i poprawność precyzji zapisu, właściwą lokalizację wartości absolutnych i względnych.

W przypadku konieczności dyskretyzacji obiektów niezbędna jest ich wektoryzacja. Jej jakość zależy przede wszystkim od dokładności oraz wiedzy i doświadczenia operatora, niezbędnych do prawidłowej identyfikacji obiektów i interpretacji zjawisk. Podczas wektoryzacji zawsze popełnia się błędy, które mogą bardzo utrudnić późniejsze nakładanie warstw, operacje z wykorzystaniem algebry boolowskiej i znacząco zafałszować wyniki analiz. Do weryfikacji topologii zazwyczaj wykorzystuje się narzędzia geometrii analitycznej, które wymagają jednak ustawienia prawidłowych parametrów brzegowych. W przeciwnym razie powstanie obraz pozornie ładny, ale w praktyce niezgodny z wymaganą precyzją geometryczną danych.

W wielu przypadkach cel opracowania wymusza wykonanie generalizacji graficznej i/lub pojęciowej, która ma fundamentalnie istotny wpływ na zróżnicowanie liczby, kształtu, powierzchni, kategorii, a czasem nawet położenia obiektów. Niemiecki kartograf E. Sydow nazwał ją jedną z trzech największych raf kartografii (obok sposobów przedstawienia sferoidalnej powierzchni Ziemi na płaszczyźnie i rzeźby terenu na mapie). Mimo że systemy informacji geograficznej stworzyły zupełnie nowe możliwości w zakresie operacji upraszczania geometrycznego, wciąż jednak immanentną cechą generalizacji jest jej subiektywizm. Inne podejście do problemu proponuje więc R. Weibel, według którego zrozumienie semantycznej istoty obiektów i zjawisk oraz łączących je relacji pozwoli na poprawne modelowanie fragmentu przestrzeni geograficznej na dowolnie zdefiniowanym poziomie uogólnienia.

Końcowe szacowanie niepewności wyników wymaga z jednej strony wiedzy o jakości danych przestrzennych, a z drugiej zastosowania odpowiedniej metody weryfikacji. Dzięki temu uniknie się niekontrolowanej propagacji błędów wykraczającej poza przyjęty poziom dokładności. Najważniejsza jest jednak świadomość popełnianych błędów. Określenie zakresu niepewności nie jest przyznaniem się do niewiedzy, ale jest wyrazem odpowiedzialności autora i określa wartość opracowania. W tym miejscu należy jednak zapytać, czy we współczesnym świecie liczy się tylko jakość, czy także ilość danych?

Big Data, czyli łopatą do wiadra

W 1997 r. dwaj współpracownicy NASA, Michael Cox i David Ellsworth, zaproponowali termin Big Data i – jak się okazało z czasem – trafili w dziesiątkę. W ciągu kolejnych dwóch dekad hardware stopniowo stawał się usługą kupowaną w czasie rzeczywistym, a dane – trwałym zasobem (MIT Technology Review). Obecnie coraz większa część kapitału w gospodarce składa się z bitów, a nie z atomów. Big Data są czynnikiem produkcji, determinują rozwój nowych modeli, rozwiązań i relacji gospodarczych. Niezwykle trafnie podsumował obecną sytuację Tom Goodwin, globalny szef innowacji w Zenith: Uber nie posiada ani jednego samochodu, Facebook nie tworzy żadnych treści, Alibaba nie ma niczego na składzie, a Airbnb nie posiada żadnych nieruchomości. Natomiast wszystkie te firmy dysponują gigantycznymi zasobami danych i technologią pozwalającą na czerpanie z nich wartości ekonomicznej.

Jak wiele danych przekazujemy drapieżcom bitów? W 2019 r. w ciągu jednej minuty wysyłano średnio m.in. 188 mln maili, 42 mln wiadomości w serwisach Facebook i WhatsApp, ponad 18 mln innych wiadomości tekstowych, 3,8 mln zapytań wpisywano w Google… W 2020 r. ilość danych cyfrowych na świecie oszacowano na 44 zettabajty (44 miliardy terabajtów). Gdybyśmy zgrali całość na dyski HDD o wielkości 4TB, a następnie wyjęli je z komputerów i ułożyli obok siebie, jeden za drugim, to taka ścieżka danych okrążyłaby Ziemię po obwodzie… ponad 27 razy! A szacuje się, że w ciągu kolejnych kilku lat ilość danych wzrośnie czterokrotnie i może osiągnąć 175 zettabajtów w 2025 r. Oczywiście nie jesteśmy jedynymi producentami bitów, bowiem dane same rodzą dane – algorytmy analityczne zbierają dane na temat własnej efektywności, dzięki czemu mogą poprawiać swoje działanie na zasadzie pozytywnego sprzężenia zwrotnego.

Czy to jednak oznacza, że Big Data to największy śmietnik świata? I tak, i nie. Można domniemywać, że co do zasady zapisywane jest wszystko, ale 90% danych to zbiory nieustrukturyzowane, a pojedynczy fakt o jakimś obiekcie czy zdarzeniu nie ma zazwyczaj żadnej wartości. Europejska Komisja Gospodarcza ONZ zaproponowała wyróżnienie trzech podstawowych dużych wymiarów jakości danych do rozwiązań Big Data: dane, metadane i źródła, które z kolei rozpatrywane są na trzech poziomach: wejście, przetwarzanie, wyjście. Takie spojrzenie było niezbędne, bowiem gdy mamy do czynienia z próbą 100 respondentów, to każda odpowiedź może być istotna, ale kiedy potencjalnych respondentów jest kilka miliardów, to błędy czy jednostkowe preferencje przestają mieć znaczenie, a priorytetem stają się trendy globalne. Klasycznych analityków zastąpili badacze danych – detektywi Big Data, współcześni uczniowie Claude’a E. Shannona, których zawód „Harvard Business Review” określił „najseksowniejszą pracą XXI wieku”. To ci Mistrzowie Relewancji i Pogromcy Redundancji czyszczą niewyobrażalne ilości danych, odsiewając ziarno od plew, organizują, porządkują i szukają powiązań, wykorzystując przy tym niestandardowe metody analiz.

Na tym etapie pojawia się wartość dodana, która surowym danym nadaje znaczenie, sens i cel. To informacja. Informacja, która likwiduje nieokreśloność i wnosi do świadomości odbiorcy element nowości, czyli zmniejsza jego niewiedzę. Paulo Coelho pisał, że wszystko ma swoją cenę, a informacja to jeden z najdroższych towarów na świecie. Urosła do rangi globalnego czynnika sterującego, który występuje ponad konwencjonalnym porządkiem instytucjonalnym. Oczywiście każdej informacji towarzyszy niepewność odbiorcy co do treści przekazywanego komunikatu. Dlatego informacje, podobnie jak dane, też posiadają cechy, które świadczą o ich jakości (jednoznaczność, kompletność, wiarygodność, aktualność, zgodność) lub możliwościach wykorzystania (dostępność, celowość i cena). Ale to już temat na inny artykuł.

Dr Jacek Wolski, geograf, Zakład Geoekologii i Klimatologii, Zespół Systemów Informacji Geograficznej i Kartografii, Instytut Geografii i Przestrzennego Zagospodarowania PAN

Wróć