3.4. Miks ja kuidas isikuandmeid anonüümida?

Euroopa andmekaitse alases töörühmas anonüümimisvõtete kohta koostatud arvamuse nr 05/2014 kohaselt on anonüümimine andmete töötlemine pöördumatul viisil, st selle järel ei ole isikute taastuvastamine ühelgi mõistlikul ja tõenäolisel meetodil enam võimalik. Tänu sellele ei ohusta anonüümitud andmeid ka ründed: isegi kui kõik andmed langeksid ründajate kätte, ei ole neid võimalik isikustada. Seepärast ei ole anonüümitud andmed käsitatavad isikuandmetena.

Euroopa Andmekaitsenõukogu on leidnud suunises nr 04/2020 asukohaandmete ja kontaktide jälgimise vahendite kasutamise kohta Covid-19 puhangu kontekstis, et anonüümida saab vaid kogu andmestikku, mitte üksikuid andmelõike. Õiguslikus mõttes ei ole selge, millise tasemeni tuleb andmestikku töödelda, et pidada seda anonüümseks. Anonüümimismeetodid pakuvad kaitset eri määral ja sageli sõltuvad need konkreetsest andmestikust.

3.4.1. Andmete anonüümimise põhjused ja aeg

Isikuandmete anonüümimine aitab kaitsta inimeste privaatsust ja toetab minimaalsuspõhimõtet: kui teadustöö eesmärgid on saavutatavad anonüümitud andmetega, tuleks igal juhul eelistada anonüümimist.

Kuna anonüümitud andmeid ei loeta enam isikuandmeteks, on nende kasutamine ja jagamine vabam. Neid võib edastada teadusprojekti koostööpartneritele, talletada avaandmetena repositooriumides või saata muudele isikutele ja asutustele, kel on nende vastu huvi.

Anonüümitud andmete puhul on lihtsam tagada ka andmetöötluse turvalisus. Ainus risk, mida peab meeles pidama ja aeg-ajalt hindama, on võimalus, et tehnoloogia arenedes ja uute andmestike lisandudes võivad anonüümitud andmestikus olevad isikud uuesti tuvastatavaks muutuda.

Anonüümimisel väheneb pea alati andmete käideldavus. Kui andmed on mahukad, paljude muutujatega või kvalitatiivsed, võib anonüümimine takistada nende kasutamist või muuta need sootuks kasutuks, sest selle käigus moonutatakse andmeid. Näiteks sotsiaalteaduslike kvalitatiivsete andmete (intervjuude transkriptsioonid, tekstid) anonüümimine võib vähendada nende taaskasutamise võimalusi. Lisaks ei võimalda anonüümitud materjal isikuandmete põhjal tehtud teaduslikke analüüse korrata.

Andmeid saab ka kohe anonüümselt koguda, ent kui selle käigus salvestuvad kordumatud identifikaatorid (näiteks arvuti IP-aadress), on vajalik järeltöötlus, et välistada isikute kaudse tuvastamise võimalus. Seega tuleb hoolikalt hinnata, kas plaanitav meetod võimaldab koguda andmeid kohe anonüümselt või tuleb need anonüümida andmekogumise või teadustöö valmimise järel.

3.4.2. Andmete anonüümijad

Isikuandmete anonüümimise eest vastutab Tartu Ülikool, ent konkreetsete anonüümimistoimingute eest ülikooli teadlane, kellel on vajalikud teadmised, oskused ja vahendid. Anonüümijad võivad olla ka teadustööst väljapoole jäävad isikud, kui sellest on varem andmesubjekte teavitatud ning tagatud on sedalaadi anonüümimise seaduslikkus ja vastavus andmekaitsepõhimõtetele.

Teiseste andmete kasutamisel võib need anonüümida andmeid väljastav asutus.

3.4.3. Andmete anonüümimise meetodid

Anonüümimisviis sõltub suurel määral isikuandmete laadist ja hulgast. Seepärast tuleb hinnata, mil määral takistab valitud meetod andmete ja isiku seostamist ning kas see tulemus on pöördumatu.

Andmete anonüümimisel on levinud kolm peamist meetodit:

eemaldamise käigus kõrvaldatakse või asendatakse jäädavalt kõik otsest tuvastamist võimaldavad tunnused (nimi, isikukood). Otseste identifikaatorite eemaldamine ei taga kohe anonüümsust, sest isikut saab tuvastada ka muude andmete põhjal: näiteks eristub ta kordumatu tunnuste kombinatsiooni tõttu või siis, kui eri andmestikud ühendatakse;
juhuslikustamine ehk randomeerimine eeldab andmete juhuslikku moonutamist teatud väärtuste või tunnuste alusel. Andmete moonutamise tõttu ei pruugi randomeerimine teadusandmete avaldamiseks sobida. See-eest kasutatakse juhuslikustamist suurte avalike andmestike kaitsmiseks taastuvastamise vastu;
üldistamise käigus rühmitatakse väärtused tunnuste kaupa. Näiteks võib sünniaastad koondada vanusevahemikeks, palgasummad palgavahemikeks jne. Üldistamine aitab tagada, et isik ei ole tuvastatav, kuid selle miinus on see, et väärtuse täpsusaste väheneb.

Lisaks saab sõltuvalt anonüümitavatest andmetest eristada mõningaid erijuhte.

Andmestiku väljavõtte anonüümimine

Kuna anonüümimine peab olema pöördumatu, ei tohi jääda alles koopiat algandmetest, mida on võimalik anonüümitud andmestikuga taas ühendada. Siiski on võimalik teha andmestikust avalikustamiseks mõeldud anonüümitud väljavõtteid, nii et algandmed jäävad alles. Tehtud väljavõte ei tohi olla enam algandmetega ühendatav.

Pseudonüümitud andmete anonüümimine

Varem pseudonüümitud andmete anonüümimisel tuleb salajane võti kustutada. Lisaks tuleks hinnata pseudonüümimise piisavust: kui pseudonüümiga asendati vaid otsesed identifikaatorid, aga mitte andmete väärtused, võivad andmestikus esineda kordumatud kvaasiindikaatorite kombinatsioonid, mis lihtsustavad inimeste tuvastamist. Sellisel juhul tuleks lisaks võtme kustutamisele andmeid veel töödelda – näiteks üldistada –, et välistada kaudne tuvastusvõimalus. Korrektselt pseudonüümitud andmete puhul võib aga piisata võtme jäädavast kustutamisest.

Anonüümimismeetodit tuleb läbipaistvuse suurendamiseks isikuandmete omanikule täpselt kirjeldada, et ta saaks hinnata, kas ja kuivõrd ta peab sellist töötlemist piisavaks. Eriti vajalik on see juhul, kui anonüümitud andmed avaldatakse avatud teadusandmetena.

3.4.4. Andmete ja isikute seostamise vältimine

Et vähendada võimalust andmeid ja isikut seostada, tuleb vaadata andmestiku omadusi, näiteks andmete struktuuri, tüüpi või hulka. Näiteks vähendavad anonüümsust väga kitsa valimiga küsitlused, milles kogutakse paljude sotsiaalsete tunnuste kohta väga täpseid väärtusi või mis sisaldavad mahukaid vabatekstiga vastuseid. Euroopa Andmekaitsenõukogu suunises nr 04/2020 asukohaandmete ja kontaktide jälgimise vahendite kasutamise kohta Covid-19 puhangu kontekstis on käsitletud juhtumeid, kus andmeid on võimalik pärast anonüümimist isikuga seostada. Selle vältimiseks tuleb teada anonüümimise nõrku kohti.

Üksikisiku eristamise (singling out) võimalus tekib siis, kui anonüümitud andmestikus esinevad kordumatud tunnused, näiteks IP-aadress, seadme ID või kvaasiidentifikaatorite kombinatsioon. Viimasel juhul on tarvis siiski lisasamme, et isik tuvastada, sest ühendada tuleb mitu sama isiku kohta käivat andmestikku.

Näide

Kui andmestikus esineb vaid üks sissekanne isiku kohta, kes on meessoost, vanuses 31–40, kõrgharidusega, töötab asutuse X allasutuses Y ning kelle staaž on 10 aastat, siis on ta üksikisikuna eristatav. Tema tuvastamiseks võib sel juhul piisata vaid sellest, kui asutuse X töötajate nimekiri koos piltide ja lühikeste elulookirjeldustega on avalik. Samuti suudavad selle isiku tuvastada ilmselt kõik sama asutuse töötajad.

Peamine meetod üksikisiku tuvastamise vältimiseks on k-anonüümsus, mis eeldab, et iga kvaasiidentifikaatorite kombinatsiooni kohta on andmestikus vähemalt k erinevat vastet. K-anonüümsuse väärtus tuleb teadlastel endil valida sõltuvalt andmete tundlikkusest ja andmestiku eripäradest.

Andmete seostamise (linkability) võimalus tekib juhul, kui kaks andmestikku saab mõningate tunnuste (näiteks samade kvaasiidentifikaatorite) alusel kokku viia. Sellisel juhul võib kahe andmestiku ühendamisel ilmneda, et neis kummaski esineb sarnane kordumatu kvaasiidentifikaatorite kombinatsioon, mis võimaldab mõne isiku kohta saada lisateavet ja teda tuvastada. Andmestike ühendamine ongi olnud peamine viis, kuidas algul anonüümseks peetavate andmete põhjal on siiski suudetud isikuid tuvastada.

Loe lisaks

Genealoogiliste andmebaaside ja anonüümsete DNA doonorite andmete ühendamine: Bohannon, J. (2013). Genealogy Databases Enable Naming of Anonymous DNA Donors. Science, 339(6117), 262
Netflixi kasutajate tuvastamine anonüümseks peetud filmireitingute andmete põhjal: Narayanan, A.; Shmatikov, V. (2008). Robust De-anonymization of Large Sparse Datasets. IEEE Symposium on Security and Privacy, 111–125

Järeldamine (inference) on võimalik juhul, kui andmestikus esineva isiku kohta on teada lisainfot. Näiteks koos töötavad või õppivad inimesed teavad oma kaaslaste kohta rohkem ja võivad ka otseste identifikaatoriteta andmestikest üksteist ära tunda. Lisainfoks võib olla ka lihtsalt teadmine, et keegi tuttav osales uuringus – järelikult käib üks andmestikurida tema kohta. Samuti võib inimese ära tunda hääle või isikupärase sõnakasutuse järgi. Järeldamise erijuht on see, kui inimene ise ennast andmestikust ära tunneb.

Järeldamist on küllaltki keeruline vältida, kuna võimalike taustateadmiste hulk on määramatu ja sõltub konkreetsest isikust. Samuti tuleks arvestada, et k-anonüümsus ei pruugi järeldamise teel saadud teadmiste eest kaitsta, kui kaitstavad tunnused on ühetaolised.

Näide

Andmestikus esineb vähemalt viis (k = 5) vastet kombinatsioonile, mis koosneb neljast tunnusest: naine, 30–40-aastane, pärit Tartust, töösuhe: lapsehoolduspuhkusel. Piisab vaid kolme tunnuse teadmisest, et saada neljanda tunnuse kohta lisateavet või isik tuvastada. Sellisel juhul tuleks kaaluda l-hajutuse (l-diversity) näitajat, mis eeldab, et ka iga tundliku tunnuse kohta esineb eri väärtuseid. Näiteks l-hajutus = 2 eeldaks, et nende viie 30–40aastase Tartust pärit naise puhul peaks töösuhtel olema vähemalt kaks väärtust: mõni neist lapsehoolduspuhkusel, mõni aktiivse töösuhtega, töötu vms.

Tehnoloogia arengu või uute andmestikega ühendamise tõttu võib anonüümitud isikute tuvastamine muutuda mingil hetkel võimalikuks, eriti kui andmeid säilitatakse aastakümneid. Sel juhul tuleb hinnata tuvastamisriski ja võtta arvesse, et kui andmed muutuvad tuvastatavaks, rakenduvad uuesti andmekaitsepõhimõtted. Vastutav töötleja peab sel juhul hindama mõistlikul määral tuvastatavust ja tõendama, et andmeid võib tõesti anonüümseks pidada.

3.4.5. Kuidas teha anonüümset küsitlust?

Anonüümse küsitluse käigus kogutakse vastuseid sellisel kujul ja viisil, et vastajaid ei ole võimalik kuidagi tuvastada.

Kui inimestelt kogutakse andmeid veebiküsitluses, tuleb arvestada, et ka IP-aadressid on isikuandmed (vt ka p 1.3.2) ja nende salvestumisel võivad isikud olla tuvastatavad. Sel juhul ei ole küsitlus anonüümne, vaid selle käigus kogutakse isikuandmeid. Anonüümimine on siiski võimalik, kui andmeid järeltöödelda – näiteks kustutada IP-aadressid pärast andmekogumist jäädavalt. Küsitluses osalejatele tuleb nii isikuandmete kogumisest kui ka nende hilisemast anonüümimisest selgelt teada anda.

Mõni küsitluskeskkond võimaldab andmete kogumisel seadistada ka seda, milliseid lisaandmeid küsitluses salvestatakse. Kui IP-aadresside ja muude andmete kogumine on võimalik välja lülitada, võib andmete kogumist pidada anonüümseks. Siiski peab arvestama võimalusega, et ka väga hoolikalt seadistatud küsitluse vastused võivad muuta inimese tuvastatavaks – piisab, kui paluda näiteks inimese kontaktandmeid.

Ülikoolis on soovitatav kasutada küsitluskeskkonda LimeSurvey, mis pakub anonüümsuse tagamiseks lisavalikuid, sh vastaja IP-aadressi automaatse salvestamise väljalülitamist. Kui teadlane kasutab LimeSurveyd või muud ülikoolis tunnustatud keskkonda, saab ta küsimuste korral tuge arvutiabilt (arvutiabi@ut.ee). Ülikoolivälistes keskkondades ei ole arvutiabil teadlast probleemide tekkimisel võimalik aidata.

Page tree