Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

  • Üksikisiku eristamise (singling out) võimalus tekib siis, kui anonüümitud andmestikus esinevad kordumatud tunnused, näiteks IP-aadress, seadme ID või kvaasiidentifikaatorite kombinatsioon. Viimasel juhul on tarvis siiski lisasamme, et isik tuvastada, sest ühendada tuleb mitu sama isiku kohta käivat andmestikku.

Näide

Kui andmestikus esineb vaid üks sissekanne isiku kohta, kes on meessoost, vanuses 31–40, kõrgharidusega, töötab asutuse X allasutuses Y ning kelle staaž on 10 aastat, siis on ta üksikisikuna eristatav. Tema tuvastamiseks võib sel juhul piisata vaid sellest, kui asutuse X töötajate nimekiri koos piltide ja lühikeste elulookirjeldustega on avalik. Samuti suudavad selle isiku tuvastada ilmselt kõik sama asutuse töötajad.

Peamine meetod üksikisiku tuvastamise vältimiseks on k-anonüümsus, mis eeldab, et iga kvaasiidentifikaatorite kombinatsiooni kohta on andmestikus vähemalt k erinevat vastet. K-anonüümsuse väärtus tuleb teadlastel endil valida sõltuvalt andmete tundlikkusest ja andmestiku eripäradest.

  • Andmete seostamise (linkability) võimalus tekib juhul, kui kaks andmestikku saab mõningate tunnuste (näiteks samade kvaasiidentifikaatorite) alusel kokku viia. Sellisel juhul võib kahe andmestiku ühendamisel ilmneda, et neis kummaski esineb sarnane kordumatu kvaasiidentifikaatorite kombinatsioon, mis võimaldab mõne isiku kohta saada lisateavet ja teda tuvastada. Andmestike ühendamine ongi olnud peamine viis, kuidas algul anonüümseks peetavate andmete põhjal on siiski suudetud isikuid tuvastada.

Loe lisaks

  • Järeldamine (inference) on võimalik juhul, kui andmestikus esineva isiku kohta on teada lisainfot. Näiteks koos töötavad või õppivad inimesed teavad oma kaaslaste kohta rohkem ja võivad ka otseste identifikaatoriteta andmestikest üksteist ära tunda. Lisainfoks võib olla ka lihtsalt teadmine, et keegi tuttav osales uuringus – järelikult käib üks andmestikurida tema kohta. Samuti võib inimese ära tunda hääle või isikupärase sõnakasutuse järgi. Järeldamise erijuht on see, kui inimene ise ennast andmestikust ära tunneb.

Järeldamist on küllaltki keeruline vältida, kuna võimalike taustateadmiste hulk on määramatu ja sõltub konkreetsest isikust. Samuti tuleks arvestada, et k-anonüümsus ei pruugi järeldamise teel saadud teadmiste eest kaitsta, kui kaitstavad tunnused on ühetaolised.

Näide

Andmestikus esineb vähemalt viis (k = 5) vastet kombinatsioonile, mis koosneb neljast tunnusest: naine, 30–40-aastane, pärit Tartust, töösuhe: lapsehoolduspuhkusel. Piisab vaid kolme tunnuse teadmisest, et saada neljanda tunnuse kohta lisateavet või isik tuvastada. Sellisel juhul tuleks kaaluda l-hajutuse (l-diversity) näitajat, mis eeldab, et ka iga tundliku tunnuse kohta esineb eri väärtuseid. Näiteks l-hajutus = 2 eeldaks, et nende viie 30–40aastase Tartust pärit naise puhul peaks töösuhtel olema vähemalt kaks väärtust: mõni neist lapsehoolduspuhkusel, mõni aktiivse töösuhtega, töötu vms.

  • Tehnoloogia arengu või uute andmestikega ühendamise tõttu võib anonüümitud isikute tuvastamine muutuda mingil hetkel võimalikuks, eriti kui andmeid säilitatakse aastakümneid. Sel juhul tuleb hinnata tuvastamisriski ja võtta arvesse, et kui andmed muutuvad tuvastatavaks, rakenduvad uuesti andmekaitsepõhimõtted. Vastutav töötleja peab sel juhul hindama mõistlikul määral tuvastatavust ja tõendama, et andmeid võib tõesti anonüümseks pidada.

...