Une université annonce qu’un ensemble de données va être affiché publiquement sur son site web, comprenant les notes (totales) attribuées à ses étudiants dans tous les cours dispensés lors d’une année spécifique,


1::Le nom des cours et, pour chaque cours, la note attribuée à chaque étudiant. Tout identificateur de l’étudiant (p.ex. nom, numéro de référence de l’étudiant, etc.) sera omis ou remplacé par un autre numéro de référence fictif. Les autres informations à caractère personnel concernant les étudiants (âge, sexe, etc.) pourraient se retrouver dans la liste.
3::Le nom des cours et, pour chaque cours, les notes attribuées, sans autres informations
2::Uniquement les notes attribuées aux étudiants; pas d’autres informations (pas même les cours correspondants)

Malheureusement, il ne s’agit pas de la bonne réponse. Une liste de données doit être considérée comme anonymisée s’il est impossible d’identifier toute personne y figurant, en prenant en considération tous les moyens raisonnables susceptibles d’être utilisés par toute autre personne. Ainsi, remplacer les identificateurs par d’autres numéros de référence fictifs n’est pas de l’anonymisation mais de la pseudonymisation; p.ex., en sachant que seul John a obtenu la note de 10 pour le cours A, il nous est possible de découvrir le numéro de référence dans la liste correspondant à John et, par conséquent, toutes les notes ayant été attribuées à John dans chacun des cours. Même en omettant simplement les identificateurs uniques, la combinaison d’autres informations à caractère personnel peut également permettre l’identification (p.ex. si nous savons que John est le seul homme âgé de 21 ans).

 

La bonne réponse pour ce scénario est le nom des cours et, pour chaque cours, les notes attribuées, sans autres informations. En général, il est plutôt difficile de parvenir à une anonymisation complète si l’on veut publier une liste contenant des données utiles. Se contenter de retirer ou modifier les identificateurs de personnes n’équivaut pas à de l’anonymisation. Il existe des méthodes spécifiques d’anonymisation que l’éditeur doit appliquer afin d’éviter un ensemble de risques de «désanonymisation». Pour plus d’informations, voir le rapport de l’ENISA intitulé «Privacy by Design in Big Data»: https://www.enisa.europa.eu/publications/big-data-protection

 

Il s’agit de la bonne réponse. Une liste de données doit être considérée comme anonymisée s’il est impossible d’identifier toute personne y figurant, en prenant en considération tous les moyens raisonnables susceptibles d’être utilisés par toute autre personne. En général, il est plutôt difficile de parvenir à une anonymisation complète si l’on veut publier une liste contenant des données utiles. Se contenter de retirer ou modifier les identificateurs de personnes n’équivaut pas à de l’anonymisation. Il existe des méthodes spécifiques d’anonymisation que l’éditeur doit appliquer afin d’éviter un ensemble de risques de «désanonymisation». Pour plus d’informations, voir le rapport de l’ENISA intitulé «Privacy by Design in Big Data»: https://www.enisa.europa.eu/publications/big-data-protection

 

Ce n’est que partiellement correct. En effet, cette liste, qui est une simple liste de notes (c’est-à-dire de numéros), est entièrement anonymisée étant donné qu’il est impossible d’identifier toute personne y figurant, en prenant en considération tous les moyens raisonnables susceptibles d’être utilisés par toute autre personne. Néanmoins, cette liste n’a pas d’utilité eu égard à l’objectif de la publication (p.ex. nous ne pouvons pas calculer les valeurs moyennes attribuées pour le cours A). La bonne réponse pour ce scénario est le nom des cours et, pour chaque cours, les notes attribuées, sans autres informations. En général, il est plutôt difficile de parvenir à une anonymisation complète si l’on veut publier une liste contenant des données utiles. Se contenter de retirer ou modifier les identificateurs de personnes n’équivaut pas à de l’anonymisation. Il existe des méthodes spécifiques d’anonymisation que l’éditeur doit appliquer afin d’éviter un ensemble de risques de «désanonymisation». Pour plus d’informations, voir le rapport de l’ENISA intitulé «Privacy by Design in Big Data»: https://www.enisa.europa.eu/publications/big-data-protection



dans le but de permettre à chacun de traiter ces données à des fins d’analyse scientifique/statistique, c’est-à-dire pour calculer des valeurs moyennes, ainsi que les valeurs maximales et minimales et d’autres informations statistiques sur les notes correspondant à chaque cours. L’université indique dans sa déclaration que cette liste sera entièrement anonymisée. 

Quelles données pouvez-vous vous attendre à voir sur une telle liste entièrement anonymisée?