Multipass. Episode “L’anonymisation des données”

Avec l’explosion de la quantité de données disponible dans les exploitations et leur captation à la source, la question de l’accès aux données agricoles devient une question importante (voir l’accès aux données pour la recherche et l’innovation en agriculture. Position des Instituts Techniques Agricole, paru en 2016 ou encore La valeur des données en agriculture par Renaissance Numérique paru en 2018).

Le projet Multipass (en savoir plus) lancé en 2018 vise à mettre à disposition des producteurs et valorisateurs de données agricoles, un écosystème de gestion des consentements des agriculteurs protégeant les échanges de données des exploitations. En renforçant la confiance des producteurs nécessaire au partage de leurs données, le projet permettra de faire émerger de nouveaux services innovants.

Afin de construire cet écosystème, nous souhaitons définir avec les différents acteurs, dont les agriculteurs, les conditions d’établissement de la confiance dans le cadre du partage de données en agriculture. Cet article est une des contributions à ce travail d’analyse de cette problématique et de concertation avec les acteurs. Il semble notamment indispensable que la confidentialité des informations personnelles soit préservée.

Garantir la confidentialité des informations des personnes

Pour des raisons de sécurité, il est possible de ne transmettre que le strict nécessaire des données aux acteurs ayant à les traiter. Les données peuvent être anonymisées. Le terme d’anonymisation est habituellement réservé aux cas où toutes les informations permettant d’identifier les personnes sont transformées de façon irréversible. Suivant la norme ISO 29100, il s’agit du « processus par lequel des informations personnellement identifiables (IPI) sont irréversiblement altérées de telle façon que le sujet des IPI ne puisse plus être identifié directement ou indirectement, que ce soit par le responsable du traitement des IPI seul ou en collaboration avec une quelconque autre partie » [1][2].

Un nouveau jeu de données “anonyme” est ainsi produit. Dans ce jeu transformé, les données personnelles ou pouvant identifier une personne sont donc supprimées. Il devient alors impossible de retrouver l’identité des personnes associées aux données. Par exemple, dans le domaine de la santé, anonymiser des données sur des traitements médicaux de patients (en vue d’un traitement statistique par exemple) revient à supprimer absolument toutes informations personnelles sur les patients : nom, adresse, ville, numéro de sécurité sociale, etc. En fonction des usages, une difficulté est souvent de déterminer la part des données qui doit être enlevée. Si trop de données sont supprimées, elles deviennent inexploitables. A l’inverse, si l’anonymisation est incomplète, alors il est possible de retrouver les informations personnelles, par exemple par recoupement avec d’autres sources. Dans de nombreux cas, l’anonymisation complète des données personnelles n’est pas possible. Donc, on utilise la pseudonymisation des données personnelles.

La pseudonymisation est réversible. Elle « consiste à remplacer un attribut par un autre dans un enregistrement. La personne physique est donc toujours susceptible d’être identifiée indirectement ». La pseudonymisation sépare les données identifiant directement les personnes (IPI) des autres données. Cette technique génère une clé d’identification qui conserve le lien entre toutes les données relative à une personne. Les données IPI et les clé d’identification sont conservés en toute sécurité, tandis que les autres peuvent être transmises. Ainsi, les données ne sont pas anonymes sans être identifiables pour autant [1][2].

Par exemple, supposons les informations suivantes :

Nom Prénom N° sécurité social Surface agricole utile de l’exploitation
Durand Paul 173054220702238 25
Dupont Marie 274054320702237 26

Une pseudonymisation pourrait produire les deux tables suivantes :

  1. Dans cette première table, on conserve les Informations identifiants directement les personnes. Les données identifiant directement les personnes, associés à des clés d’identification sont conservées en toute sécurité par le détenteur initial des données personnelles.
Nom Prénom N° sécurité social Clé
Durand Paul 173054220702238 54866
Dupont Marie 274054320702237 84856

2) Dans une seconde table, on ne fait figurer que la clé et les autres informations. On peut calculer par exemple des sommes des surfaces agricoles utiles sans avoir accès aux données personnelles.

Clé Surface agricole utile de l’exploitation
54866 25
84856 26

Réglementation et anonymisation

En 2018, le règlement général sur la protection des données (RGPD) [3] de l’Union Européenne est entrée en vigueur afin de mieux protéger les informations personnelles. Le RGPD indique que l’utilisation des données doit être réalisé en garantissant la loyauté envers les personnes dont les données à caractère personnel sont traitées. Cette réglementation souligne qu’un tier (une entreprise, une administration, etc.) ne doit pas utiliser les informations personnelles à d’autres fins que celles initialement prévues. Aussi, le tier ne peut pas se borner à simplement indiquer que les données seront collectées et traitées. Il doit donner plus de détails sur les traitements en question. De plus, le principe de minimalité des données doit être appliqué : le tier ne doit avoir accès qu’aux données personnelles qui lui sont nécessaires.

Le RGPD préconise d’au moins pseudonymiser les informations personnelles. Il est alors extrêmement difficile de ré-identifier par croisement avec d’autres sources. En pratique, seuls ceux qui connaîtront la méthode pour ré-identifier un jeu de données précis pourront le faire. La réglementation européenne est particulièrement stricte. Elle s’applique à toutes données revêtant un caractère personnel, c’est-à-dire permettant d’identifier une personne physique, incluant donc les données personnelles des exploitants. Il est demandé aux tiers manipulant des données d’être en capacité de prouver qu’ils se conforment bien à la réglementation. Le RGPD peut même s’appliquer si le responsable du traitement n’est pas établi en Europe, mais si les données portent sur des personnes au sein de l’union européenne.

La pseudonymisation ou l’anonymisation des données a pour effet de renforcer la confiance des personnes qui mettent leurs informations à la disposition d’un tier. Ceci permet aussi de limiter les conséquences d’éventuelles fuites d’information vers des tiers non autorisés. Ces techniques rendent aussi possible les traitements statistiques d’un ensemble de données, sans pour autant que les personnes ayant réalisé l’analyse n’aient eu accès aux informations personnelles.

Plusieurs méthodes pour garantir la confidentialité des données

Plusieurs catégories de méthodes existent pour garantir la confidentialité des données personnelles. Le choix d’une technique plutôt qu’une autre repose principalement sur le traitement prévu. Nous citons ci-dessous quelques unes de ces méthodes.

Figure 1 : Plusieurs méthodes pour garantir la confidentialité des données

La réduction des détails

Le principe consiste à retirer certains détails. On présentera les informations à un niveau de détails moins élevé, en enlevant ou remplaçant les données personnelles. Cette réduction du niveau de détail est souvent appelée généralisation – une représentation plus générale (et donc moins détaillée) est produite. Dans les données, la valeur du champ présentant des noms de particuliers prendra par exemple la valeur “PARTICULIER” ou tout autre code anonyme ; ou bien encore on supprimera les champs personnels des exploitants (“nom”, “adresse”, etc.) en ne laissant que des informations non identifiées (type d’exploitation, SAU, etc.) comme vu plus haut. Certaines techniques spécifiques [4] permettent de rendre encore plus difficile la ré-identification des données par recoupement avec d’autres sources.

L’ajout de bruits

En plus de la réduction des détails, il est possible d’ajouter du “bruit”, à savoir de nouvelles valeurs qui auront pour but de diminuer les possibilités de faire le lien avec les données personnelles. Il sera alors encore plus difficile de ré-identifier les données par recoupement avec d’autres sources d’information. Il peut s’agir par exemple de légèrement modifier certaines valeurs, comme des historiques de valeurs d’une mini-station météo qui, s’ils sont liés à une exploitation, sont des données très caractéristiques. En effet, si ces informations étaient présentent dans d’autres sources, liées à des données personnelles, un recoupement de plusieurs sources pourrait être possible. A noter qu’il faut, bien sûr, que les tiers qui ont à manipuler des données bruitées soient clairement informés du fait que la qualité des informations a été dégradée. Il ne faut pas que le bruit ajouté empêche le traitement prévu des données.

La création d’un jeu de données virtuel

Pour des utilisations dans le cadre de la recherche, il est aussi possible de simuler des jeux de données virtuels à partir de caractéristiques réelles. Des données réelles seront alors utilisées pour créer des informations virtuelles complètement anonymes, mais ayant les principales caractéristiques des données réelles. Ce jeu de données est ensuite exploité à la place du jeu réel. Ceci s’applique généralement à des sources de données de grande échelle.

Le chiffrement

Il ne s’agit pas à proprement parlé d’anonymisation ou pseudonymisation. Il s’agit d’une méthode complémentaire. Le chiffrement consiste à crypter les données et, ainsi, à rendre impossible leur utilisation par des tiers ne possédant pas la clé pour les déchiffrer. Les données sont donc inexploitables pour quiconque n’a pas cette clé. Il s’agit d’une très bonne méthode pour sécuriser les données dans le cadre de leurs transmissions et de leurs stockages.

Avec la mise en application de la réglementation européenne et la prise de conscience de la protection des données personnelles, il sera nécessaire de mieux identifier les avantages et les inconvénients de ces méthodes pour différentes catégories de cas d’applications en agriculture. Une chose est sûre – il faudra anticiper l’émergence des nouvelles pratiques en matière d’utilisation des données afin de toujours garantir une protection efficaces des données personnelles. Des données géo-référencées, qui pourraient sembler anonymes, peuvent par recoupement permettre de retrouver un propriétaire par sa localisation. Heureusement, les progrès de la recherche en matière de technologies pour améliorer et sécuriser les échanges de données sont très rapides [6]. Il faudra aussi travailler sur une meilleure définition de ce qui constitue une donnée personnelle au sein des exploitations, et ce afin de mieux permettre leur protection.

Version du 22 mars 2019

François Pinet, Catherine Roussey (Unité de Recherche “Technologies et Systèmes d’Information pour les agrosystème – Clermont-Ferrand”, Irstea – Institut de recherche en sciences et technologies pour l’agriculture et l’environnement). Contact : francois.pinet@irstea.fr

Le projet Multipass

Multipass “Faire émerger de nouveaux services pour l’agriculteur dans une chaîne de confiance gérant les gestions des consentements d’accès aux données des exploitations” est mené par ARVALIS, ACTA, FIEA, IDELE, IRSTEA, ORANGE et SMAG et ses réflexions impliquent d’autres acteurs incontournables du secteur agricole. Lauréat de l’AAP Recherche Technologique 2017, il est financé par le compte d’affectation spéciale « développement agricole et rural » (CASDAR).

Références

[1] ISO/CEI 27038:2014 – Technologies de l’information, techniques de sécurité, spécifications concernant l’expurgation numérique

[2] Anonymisation ou pseudonymisation – commission de contrôle des informations nominatives – https://www.ccin.mc/fr/fiches-pratiques

[3] Le règlement général sur la protection des données est issu de l’Union Européenne. Il fait référence en matière de protection des données personnelles. https://ec.europa.eu/info/law/law-topic/data-protection/reform/rules-business-and-organisations/principles-gdpr_fr

[5] Les techniques de k-anonymisation et L-diversité sont des exemples classiques de méthodes pour réaliser des anonymisation par réduction du niveau de détails. Voir par exemple “Techniques d’anonymisation” de Benjamin Nguyen, Statistique et société vol.2, n°4, décembre 2014.

[6] Au niveau international, les tous derniers résultats scientifiques et technologiques en la matière sont présentés lors de conférences telles que The Web Conference (http://www.iw3c2.org/conferences), the International Semantic Web (http://semanticweb.org) ou le colloque de la fédération européenne pour la technologie de l’information pour l’agriculture, l’alimentation et l’environnement (http://efita2019.com/about-efita-2). Ces événements regroupent des centaines de chercheurs et ingénieurs de la recherche public et de l’industrie.

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Commentaire sur “Multipass. Episode “L’anonymisation des données””