Doba datová: soukromi

pondělí 21. ledna 2013

Vaše SPZ byla prověřena

Odjížděl jsem dnes z garáže nákupního centra. Zastrčím lístek do čtečky, naskočil tam text: „Vaše SPZ byla nyní prověřena.“ Zvednu oči, skutečně na stropě visí nová kamera a míří směrem k přední masce.

Prověřena? Proti čemu?

Odjezdy vůči příjezdům? To nedává smysl, čas příjezdu je kódován v magnetickém pruhu papírové karty, což k výpočtu parkovného naprosto stačí a používá se to tak léta.

Proti policejní databázi kradených vozidel? Nepravděpodobné. Nebylo by to schůdné organizačně (z příběhu o registru vozidel víme, jak stát umí zacházet s distribuovanými databázemi) a asi ani právně — soukromému subjektu takové údaje do rukou nepatří.

Proti jejich vlastní databázi návštěvníků? Sotva by to sdělovali, vést takovou databázi bez souhlasu evidovaných je protizákonné. Jsem si samozřejmě jist, že ji teď už mají a že do ní každé auto zaznamenávají, ale jestli nejsou blázni, nikdy to nepřiznají, rozhodně ne takhle hloupě.

Tak co se tam vlastně prověřuje? (Pomiňme, že to, co nazývají SPZ, se už dávno správně jmenuje RZ.)

Pořizovat a ukládat lze téměř jakákoli data, technologie na to jsou. Stále častěji musí padat otázka, kdy to má smysl a kdy ne. Kdy je to vysloveně nepřípustné. A kde je šedá zóna, v níž se výhody (mám evidenci, které auto kdy bylo v nákupním centru a i když třeba teď nevím, k čemu je to dobré, časem se něco najde) vyvažují s nevýhodami (zákazníci, obávající se o soukromí, začnou jezdit jinam).

Všeho moc škodí, i dat.

čtvrtek 22. listopadu 2012

Anonymizace versus průkaznost agregovaných dat

Některé problémy člověka prostě předem nenapadnou.

“A related question is how aggregated and derived forms of information (e.g. statistics) should be affected when some of the raw data from which statistics are derived are forgotten. Removing forgotten information from all aggregated or derived forms may present a significant technical challenge. On the other hand, not removing such information from aggregated forms is risky, because it may be possible to infer the forgotten raw information by correlating different aggregated forms.”

Tohle je vážná věc. Citovaný článek reaguje na konflikt mezi zákonnými požadavky (v tomto případě EU, ale to není příliš podstatné) na anonymizaci dat na jedné straně a průkazností agregovaných dat na straně druhé.

Finanční úřad o mně ví, kolik vydělávám, protože má moje daňová přiznání. Agregovaná data všech daňových přiznání (ve městě, kraji, státě...) prozrazují průměrný příjem (a spoustu dalších věcí). Ta agregovaná data z mnoha důvodů potřebujeme, ta individuálně by měla být nedostupná. No tak spočítáme průměry a výchozí data pak smažeme, ne? Ne.

Když nevratně znepřístupníte výchozí individuální data, ztrácejí ta agregovaná legitimitu: nedá se dokázat, zda jsou pravá a spolehlivá. Když neznepřístupníte, bude vždy možná reverzní operace vedoucí k individuálních datům.

Tohle ještě bude obrovský problém. Obě možnosti jsou totiž špatné a mezi nimi se nenachází žádné jednoduché řešení — možná dokonce vůbec žádné řešení. Prozatímní zárukou ochrany soukromí je (vlastně jen) nedostatečnost osobních dat co do kvantity, kvality a koncentrace, tedy klasická security by obscurity. To ale rychle přestává platit, data jsou digitální, dostupná, propojená a je jich hodně.

Jestli s tímhle háčkem někdo dokáže pohnout, budou to muset být matematici, ne zákonodárci.

David Meyer, GigaOM: Why big data could sink Europe's "right to be forgotten"