Euroopa andmekaitse alases töörühmas anonüümimisvõtete kohta koostatud arvamuse nr 05/2014 kohaselt on anonüümimine andmete töötlemine pöördumatul viisil, st selle järel ei ole isikute taastuvastamine ühelgi mõistlikul ja tõenäolisel meetodil enam võimalik. Tänu sellele ei ohusta anonüümitud andmeid ka ründed: isegi kui kõik andmed langeksid ründajate kätte, ei ole neid võimalik isikustada. Seepärast ei ole anonüümitud andmed käsitatavad isikuandmetena.

Euroopa Andmekaitsenõukogu on leidnud suunises nr 04/2020 asukohaandmete ja kontaktide jälgimise vahendite kasutamise kohta Covid-19 puhangu kontekstis, et anonüümida saab vaid kogu andmestikku, mitte üksikuid andmelõike. Õiguslikus mõttes ei ole selge, millise tasemeni tuleb andmestikku töödelda, et pidada seda anonüümseks. Anonüümimismeetodid pakuvad kaitset eri määral ja sageli sõltuvad need konkreetsest andmestikust.

3.4.1.    Andmete anonüümimise põhjused ja aeg

Isikuandmete anonüümimine aitab kaitsta inimeste privaatsust ja toetab minimaalsuspõhimõtet: kui teadustöö eesmärgid on saavutatavad anonüümitud andmetega, tuleks igal juhul eelistada anonüümimist.

Kuna anonüümitud andmeid ei loeta enam isikuandmeteks, on nende kasutamine ja jagamine vabam. Neid võib edastada teadusprojekti koostööpartneritele, talletada avaandmetena repositooriumides või saata muudele isikutele ja asutustele, kel on nende vastu huvi.

Anonüümitud andmete puhul on lihtsam tagada ka andmetöötluse turvalisus. Ainus risk, mida peab meeles pidama ja aeg-ajalt hindama, on võimalus, et tehnoloogia arenedes ja uute andmestike lisandudes võivad anonüümitud andmestikus olevad isikud uuesti tuvastatavaks muutuda.

Anonüümimisel väheneb pea alati andmete käideldavus. Kui andmed on mahukad, paljude muutujatega või kvalitatiivsed, võib anonüümimine takistada nende kasutamist või muuta need sootuks kasutuks, sest selle käigus moonutatakse andmeid. Näiteks sotsiaalteaduslike kvalitatiivsete andmete (intervjuude transkriptsioonid, tekstid) anonüümimine võib vähendada nende taaskasutamise võimalusi. Lisaks ei võimalda anonüümitud materjal isikuandmete põhjal tehtud teaduslikke analüüse korrata.

Andmeid saab ka kohe anonüümselt koguda, ent kui selle käigus salvestuvad kordumatud identifikaatorid (näiteks arvuti IP-aadress), on vajalik järeltöötlus, et välistada isikute kaudse tuvastamise võimalus. Seega tuleb hoolikalt hinnata, kas plaanitav meetod võimaldab koguda andmeid kohe anonüümselt või tuleb need anonüümida andmekogumise või teadustöö valmimise järel.

3.4.2.    Andmete anonüümijad

Isikuandmete anonüümimise eest vastutab Tartu Ülikool, ent konkreetsete anonüümimistoimingute eest ülikooli teadlane, kellel on vajalikud teadmised, oskused ja vahendid. Anonüümijad võivad olla ka teadustööst väljapoole jäävad isikud, kui sellest on varem andmesubjekte teavitatud ning tagatud on sedalaadi anonüümimise seaduslikkus ja vastavus andmekaitsepõhimõtetele.

Teiseste andmete kasutamisel võib need anonüümida andmeid väljastav asutus.

3.4.3.    Andmete anonüümimise meetodid

Anonüümimisviis sõltub suurel määral isikuandmete laadist ja hulgast. Seepärast tuleb hinnata, mil määral takistab valitud meetod andmete ja isiku seostamist ning kas see tulemus on pöördumatu.

Andmete anonüümimisel on levinud kolm peamist meetodit:

Lisaks saab sõltuvalt anonüümitavatest andmetest eristada mõningaid erijuhte.

Kuna anonüümimine peab olema pöördumatu, ei tohi jääda alles koopiat algandmetest, mida on võimalik anonüümitud andmestikuga taas ühendada. Siiski on võimalik teha andmestikust avalikustamiseks mõeldud anonüümitud väljavõtteid, nii et algandmed jäävad alles. Tehtud väljavõte ei tohi olla enam algandmetega ühendatav.

Varem pseudonüümitud andmete anonüümimisel tuleb salajane võti kustutada. Lisaks tuleks hinnata pseudonüümimise piisavust: kui pseudonüümiga asendati vaid otsesed identifikaatorid, aga mitte andmete väärtused, võivad andmestikus esineda kordumatud kvaasiindikaatorite kombinatsioonid, mis lihtsustavad inimeste tuvastamist. Sellisel juhul tuleks lisaks võtme kustutamisele andmeid veel töödelda – näiteks üldistada –, et välistada kaudne tuvastusvõimalus. Korrektselt pseudonüümitud andmete puhul võib aga piisata võtme jäädavast kustutamisest.

Anonüümimismeetodit tuleb läbipaistvuse suurendamiseks isikuandmete omanikule täpselt kirjeldada, et ta saaks hinnata, kas ja kuivõrd ta peab sellist töötlemist piisavaks. Eriti vajalik on see juhul, kui anonüümitud andmed avaldatakse avatud teadusandmetena.

3.4.4.    Andmete ja isikute seostamise vältimine

Et vähendada võimalust andmeid ja isikut seostada, tuleb vaadata andmestiku omadusi, näiteks andmete struktuuri, tüüpi või hulka. Näiteks vähendavad anonüümsust väga kitsa valimiga küsitlused, milles kogutakse paljude sotsiaalsete tunnuste kohta väga täpseid väärtusi või mis sisaldavad mahukaid vabatekstiga vastuseid. Euroopa Andmekaitsenõukogu suunises nr 04/2020 asukohaandmete ja kontaktide jälgimise vahendite kasutamise kohta Covid-19 puhangu kontekstis on käsitletud juhtumeid, kus andmeid on võimalik pärast anonüümimist isikuga seostada. Selle vältimiseks tuleb teada anonüümimise nõrku kohti.

Näide

Kui andmestikus esineb vaid üks sissekanne isiku kohta, kes on meessoost, vanuses 31–40, kõrgharidusega, töötab asutuse X allasutuses Y ning kelle staaž on 10 aastat, siis on ta üksikisikuna eristatav. Tema tuvastamiseks võib sel juhul piisata vaid sellest, kui asutuse X töötajate nimekiri koos piltide ja lühikeste elulookirjeldustega on avalik. Samuti suudavad selle isiku tuvastada ilmselt kõik sama asutuse töötajad.

Peamine meetod üksikisiku tuvastamise vältimiseks on k-anonüümsus, mis eeldab, et iga kvaasiidentifikaatorite kombinatsiooni kohta on andmestikus vähemalt k erinevat vastet. K-anonüümsuse väärtus tuleb teadlastel endil valida sõltuvalt andmete tundlikkusest ja andmestiku eripäradest.

Loe lisaks

Järeldamist on küllaltki keeruline vältida, kuna võimalike taustateadmiste hulk on määramatu ja sõltub konkreetsest isikust. Samuti tuleks arvestada, et k-anonüümsus ei pruugi järeldamise teel saadud teadmiste eest kaitsta, kui kaitstavad tunnused on ühetaolised.

Näide

Andmestikus esineb vähemalt viis (k = 5) vastet kombinatsioonile, mis koosneb neljast tunnusest: naine, 30–40-aastane, pärit Tartust, töösuhe: lapsehoolduspuhkusel. Piisab vaid kolme tunnuse teadmisest, et saada neljanda tunnuse kohta lisateavet või isik tuvastada. Sellisel juhul tuleks kaaluda l-hajutuse (l-diversity) näitajat, mis eeldab, et ka iga tundliku tunnuse kohta esineb eri väärtuseid. Näiteks l-hajutus = 2 eeldaks, et nende viie 30–40aastase Tartust pärit naise puhul peaks töösuhtel olema vähemalt kaks väärtust: mõni neist lapsehoolduspuhkusel, mõni aktiivse töösuhtega, töötu vms.

3.4.5.    Kuidas teha anonüümset küsitlust?

Anonüümse küsitluse käigus kogutakse vastuseid sellisel kujul ja viisil, et vastajaid ei ole võimalik kuidagi tuvastada.

Kui inimestelt kogutakse andmeid veebiküsitluses, tuleb arvestada, et ka IP-aadressid on isikuandmed (vt ka p 1.3.2) ja nende salvestumisel võivad isikud olla tuvastatavad. Sel juhul ei ole küsitlus anonüümne, vaid selle käigus kogutakse isikuandmeid. Anonüümimine on siiski võimalik, kui andmeid järeltöödelda – näiteks kustutada IP-aadressid pärast andmekogumist jäädavalt. Küsitluses osalejatele tuleb nii isikuandmete kogumisest kui ka nende hilisemast anonüümimisest selgelt teada anda.

Mõni küsitluskeskkond võimaldab andmete kogumisel seadistada ka seda, milliseid lisaandmeid küsitluses salvestatakse. Kui IP-aadresside ja muude andmete kogumine on võimalik välja lülitada, võib andmete kogumist pidada anonüümseks. Siiski peab arvestama võimalusega, et ka väga hoolikalt seadistatud küsitluse vastused võivad muuta inimese tuvastatavaks – piisab, kui paluda näiteks inimese kontaktandmeid.

Ülikoolis on soovitatav kasutada küsitluskeskkonda LimeSurvey, mis pakub anonüümsuse tagamiseks lisavalikuid, sh vastaja IP-aadressi automaatse salvestamise väljalülitamist. Kui teadlane kasutab LimeSurveyd või muud ülikoolis tunnustatud keskkonda, saab ta küsimuste korral tuge arvutiabilt (arvutiabi@ut.ee). Ülikoolivälistes keskkondades ei ole arvutiabil teadlast probleemide tekkimisel võimalik aidata.