Eräs korkeakoulu ilmoittaa, että sen verkkosivustolla aiotaan julkaista aineisto, joka sisältää kaikki arvosanat (yhteispisteet), jotka opiskelijat ovat saaneet kaikista tiettynä vuonna tarjotuista kursseista.


1::Kurssien nimet sekä kunkin kurssin osalta kullekin opiskelijalle annetut arvosanat. Kaikki opiskelijoiden tunnistetiedot (esimerkiksi nimet ja opiskelijanumerot) on poistettu tai korvattu viitenumeroilla, jotka eivät merkitse mitään. Luettelossa voi kuitenkin olla opiskelijoiden muita henkilötietoja, kuten tieto iästä ja sukupuolesta.
3::Kurssien nimet ja kustakin kurssista annetut arvosanat ilman mitään muita tietoja.
2::Vain opiskelijoille annetut arvosanat, ei mitään muita tietoja (ei edes kurssien nimiä).

Valitettavasti vastaus ei pidä paikkaansa. Aineistoa voidaan pitää anonyyminä, jos ketään luettelossa olevaa henkilöä ei ole mahdollista tunnistaa, kun otetaan huomioon kaikki keinot, joita kuka hyvänsä voi todennäköisesti kohtuudella hyödyntää. Tunnistetietojen korvaaminen muulla tunnistenumerolla, joka ei merkitse mitään, ei ole anonymisointia, vaan pseudonymisointia. Jos esimerkiksi tiedämme, että Jussi oli ainoa, joka sai arvosanan 10 kurssista A, voimme etsiä luettelosta Jussin tunnistenumeron ja sen jälkeen saada selville Jussin arvosanat kaikista kursseista. Vaikka kaikki yksilölliset tunnisteet yksinkertaisesti jätettäisiin pois, henkilön tunnistaminen voi silti olla mahdollista muita henkilötietoja yhdistämällä (jos esimerkiksi tiedämme, että ainoa 21-vuotias mies on Jussi).

 

Tässä tapauksessa oikea vastaus on kurssien nimet ja kustakin kurssista annetut arvosanat ilman mitään muita tietoja. Täydellinen anonymisointi on yleensä varsin vaikeaa, jos halutaan, että julkaistavan luettelon tiedot ovat käyttökelpoisia. Pelkkä henkilöiden tunnistetietojen poistaminen tai muuttaminen ei vielä tarkoita anonyymiksi tekemistä. Julkaisijan on syytä noudattaa erityisiä anonymisointimenetelmiä, jotta anonymiteetin purkamiseen liittyvät riskit tulevat otetuiksi huomioon. Lisätietoa aiheesta on ENISAn raportissa Privacy by Design in Big Data: https://www.enisa.europa.eu/publications/big-data-protection

 

Vastaus on oikein. Aineistoa voidaan pitää anonyyminä, jos ketään luettelossa olevaa henkilöä ei ole mahdollista tunnistaa, kun otetaan huomioon kaikki keinot, joita kuka hyvänsä voi todennäköisesti kohtuudella hyödyntää. Täydellinen anonymisointi on yleensä varsin vaikeaa, jos halutaan, että julkaistavan luettelon tiedot ovat käyttökelpoisia. Pelkkä henkilöiden tunnistetietojen poistaminen tai muuttaminen ei vielä tarkoita anonymisointia. Julkaisijan on syytä noudattaa erityisiä anonymisointimenetelmiä, jotta anonymiteetin purkamiseen liittyvät riskit tulevat otetuiksi huomioon. Lisätietoa aiheesta on ENISAn raportissa Privacy by Design in Big Data: https://www.enisa.europa.eu/publications/big-data-protection

 

Tämä pitää paikkansa vain osittain. Pelkkiä arvosanoja (eli numerotietoa) sisältävä luettelo on tosiaankin täysin anonyymi, sillä ketään luettelossa olevaa henkilöä ei ole mahdollista tunnistaa, kun otetaan huomioon kaikki keinot, joita kuka hyvänsä voi todennäköisesti kohtuudella hyödyntää. Luettelo ei kuitenkaan ole julkistamisen aiotun käyttötarkoituksen näkökulmasta käyttökelpoinen, sillä emme esimerkiksi pysty laskemaan kurssista A annettujen arvosanojen keskiarvoa. Tässä tapauksessa oikea vastaus on kurssien nimet ja kustakin kurssista annetut arvosanat ilman mitään muita tietoja. Täydellinen anonymisointi on yleensä varsin vaikeaa, jos halutaan, että julkaistavan luettelon tiedot ovat käyttökelpoisia. Pelkkä henkilöiden tunnistetietojen poistaminen tai muuttaminen ei vielä tarkoita anonymisointia. Julkaisijan on syytä noudattaa erityisiä anonymisointimenetelmiä, jotta anonymiteetin purkamiseen liittyvät riskit tulevat otetuiksi huomioon. Lisätietoa aiheesta on ENISAn raportissa Privacy by Design in Big Data: https://www.enisa.europa.eu/publications/big-data-protection



Tarkoituksena on antaa kaikille mahdollisuus tietojen jatkokäsittelyyn tieteellistä ja tilastollista analysointia varten. Kaikki voivat siis laskea kunkin kurssin arvosanoista keskiarvoja, enimmäis- ja vähimmäisarvoja ja muita tilastotietoja. Tiedotteessaan korkeakoulu ilmoittaa, että luettelo on täysin anonyymi. 

Millaisia tietoja odotat näkeväsi tällaisessa täysin anonyymissä luettelossa?