„Nadmiarowe dane” - czyli jak zjeść tę żabę?

Wyślij link znajomemu

W RODO znacznie szerzej niż w dotychczasowej praktyce zostały zdefiniowane dane osobowe – są to zgodnie z art. 4 ust. 1 RODO: informacje o zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej, w szczególności na podstawie identyfikatora takiego jak imię i nazwisko, numer identyfikacyjny, dane o lokalizacji, identyfikator internetowy lub jeden bądź kilka szczególnych czynników określających fizyczną, fizjologiczną, genetyczną, psychiczną, ekonomiczną, kulturową lub społeczną tożsamość osoby fizycznej.

Niektóre dane staną się więc od końca maja „danymi nadmiarowymi”, a organizacja będzie musiała się ich pozbyć (np. skasować je). Dotyczy to przykładowo:

- - Dany osobowych, na których przetwarzanie firma nie ma zgód.
  - Danych osobowych, które nie spełniają zasady adekwatności (zakres przetwarzanych danych osobowych powinien być niezbędny i możliwie ograniczony ze względu na cel, w jakim się to odbywa).
  - Nowych kategorii danych osobowych wprowadzanych przez RODO (np. numer identyfikacyjny, dane o lokalizacji, identyfikator internetowy lub zbiór kilku czynników jednoznacznie identyfikujących tożsamość).
  - Danych osobowych, dla których właściciele cofnęli zgody na przetwarzanie lub ograniczyli ich zakres.
  - Danych, które samoistnie nie stanowią danych osobowych, ale w powiązaniu z innymi danymi (np. ogólnie dostępnymi) pozwalają na powiązanie z konkretną osobą fizyczną.

Kwestia danych nadmiarowych jest jednym ze słabiej zaadresowanych problemów u klientów – nawet w dużych organizacjach istnieje zagrożenie wykasowaniem wartościowych biznesowo danych, służących przykładowo do planowania działań marketingowych. Taki problem może być szczególnie dotkliwy dla firm z branży e-commerce, czy też szeroko pojętych usług finansowych.

Utrzymanie maksimum dozwolonej prawem zawartości informacyjnej jest możliwe. Rozwiązaniem są tutaj meta-modele danych oraz przetworzenie danych źródłowych oraz poprzez zastosowanie środków takich jak:

Anonimizacja (w tym randomizacja lub uogólnienie danych – np. agregacja).
Pseudonimizacja.
Tworzenie modeli reprezentatywnych do modelowania zachowania klientów na bazie osób, dla których uzyskano zgody na przetwarzanie danych (w niezbędnym dla celu analiz zakresie).
Tworzenie modeli uniwersalnych, które pozwolą na analizowanie zachowania klientów na bazie dotychczasowego oraz docelowego zbioru danych osobowych.

Celem powyższych działań jest zachowanie, a nawet zwiększenie wartości informacyjnej obecnych danych, np. potrzeby istniejących i przyszłych modeli analitycznych. W szczególności dotyczy to „danych nadmiarowych”, których przetwarzanie w postaci „surowej” stanowi istotne ryzyko dla organizacji.

Autor Grzegorz Bernatek