Réseau Numérique et Agriculture Le numérique au service de la multi-performance des filières agricoles

Multipass. Episode “L’anonymisation des données”

Avec l’explosion de la quantité de données disponible dans les exploitations et leur captation à la source, la question de l’accès aux données agricoles devient une question importante (voir l’accès aux données pour la recherche et l’innovation en agriculture. Position des Instituts Techniques Agricole, paru en 2016 ou encore La valeur des données en agriculture par Renaissance Numérique paru en 2018).

Le projet Multipass (en savoir plus) lancé en 2018 vise à mettre à disposition des producteurs et valorisateurs de données agricoles, un écosystème de gestion des consentements des agriculteurs protégeant les échanges de données des exploitations. En renforçant la confiance des producteurs nécessaire au partage de leurs données, le projet permettra de faire émerger de nouveaux services innovants.

Afin de construire cet écosystème, nous souhaitons définir avec les différents acteurs, dont les agriculteurs, les conditions d’établissement de la confiance dans le cadre du partage de données en agriculture. Cet article est une des contributions à ce travail d’analyse de cette problématique et de concertation avec les acteurs. Il semble notamment indispensable que la confidentialité des informations personnelles soit préservée.

Les points de vue exprimés dans le présent article sont ceux des auteurs et ne reflètent pas nécessairement ceux du Réseau Numérique et Agriculture de l’ACTA – les instituts techniques agricoles.

1. Garantir la confidentialité des informations des personnes

Pour des raisons de sécurité, il est possible de ne transmettre que le strict nécessaire des données aux acteurs ayant à les traiter. Les données peuvent être anonymisées. Le terme d’anonymisation est habituellement réservé aux cas où toutes les informations permettant d’identifier les personnes sont transformées de façon irréversible. Suivant la norme ISO 29100, il s’agit du « processus par lequel des informations personnellement identifiables (IPI) sont irréversiblement altérées de telle façon que le sujet des IPI ne puisse plus être identifié directement ou indirectement, que ce soit par le responsable du traitement des IPI seul ou en collaboration avec une quelconque autre partie » [1][2].

Un nouveau jeu de données “anonyme” est ainsi produit. Dans ce jeu transformé, les données personnelles ou pouvant identifier une personne sont donc supprimées. Il devient alors impossible de retrouver l’identité des personnes associées aux données. Par exemple, dans le domaine de la santé, anonymiser des données sur des traitements médicaux de patients (en vue d’un traitement statistique par exemple) revient à supprimer absolument toutes informations personnelles sur les patients : nom, adresse, ville, numéro de sécurité sociale, etc. En fonction des usages, une difficulté est souvent de déterminer la part des données qui doit être enlevée. Si trop de données sont supprimées, elles deviennent inexploitables. A l’inverse, si l’anonymisation est incomplète, alors il est possible de retrouver les informations personnelles, par exemple par recoupement avec d’autres sources. Dans de nombreux cas, l’anonymisation complète des données personnelles n’est pas possible. Donc, on utilise la pseudonymisation des données personnelles.

La pseudonymisation est réversible. Elle « consiste à remplacer un attribut par un autre dans un enregistrement. La personne physique est donc toujours susceptible d’être identifiée indirectement ». La pseudonymisation sépare les données identifiant directement les personnes (IPI) des autres données. Cette technique génère une clé d’identification qui conserve le lien entre toutes les données relatives à une personne. Les données IPI et les clés d’identification sont conservées en toute sécurité, tandis que les autres peuvent être transmises. Ainsi, les données ne sont pas anonymes sans être identifiables pour autant [1][2].

Des informations personnelles liées aux exploitations agricoles, sont par exemple celles de l’exploitant. Par exemple, supposons les informations suivantes :

Nom Prénom N° sécurité social Surface agricole utile de l’exploitation
Durand Paul 173054220702238 25
Dupont Marie 274054320702237 26

Une pseudonymisation pourrait produire les deux tables suivantes :

  1. Dans cette première table, on conserve les Informations identifiants directement les personnes. Les données identifiant directement les personnes, associés à des clés d’identification sont conservées en toute sécurité par le détenteur initial des données personnelles.
Nom Prénom N° sécurité social Clé
Durand Paul 173054220702238 54866
Dupont Marie 274054320702237 84856

2) Dans une seconde table, on ne fait figurer que la clé et les autres informations. On peut calculer par exemple des sommes des surfaces agricoles utiles sans avoir accès aux données personnelles.

Clé Surface agricole utile de l’exploitation
54866 25
84856 26

2. Réglementation et anonymisation

En 2018, le règlement général sur la protection des données (RGPD) [3] de l’Union Européenne est entrée en vigueur afin de mieux protéger les informations personnelles. Le RGPD indique que l’utilisation des données doit être réalisé en garantissant la loyauté envers les personnes dont les données à caractère personnel sont traitées. Cette réglementation souligne qu’un tier (une entreprise, une administration, etc.) ne doit pas utiliser les informations personnelles à d’autres fins que celles initialement prévues. Aussi, le tier ne peut pas se borner à simplement indiquer que les données seront collectées et traitées. Il doit donner plus de détails sur les traitements en question. De plus, le principe de minimalité des données doit être appliqué : le tier ne doit avoir accès qu’aux données personnelles qui lui sont nécessaires.

Le RGPD préconise d’au moins pseudonymiser les informations personnelles. Il est alors extrêmement difficile de ré-identifier par croisement avec d’autres sources. En pratique, seuls ceux qui connaîtront la méthode pour ré-identifier un jeu de données précis pourront le faire. La réglementation européenne est particulièrement stricte. Elle s’applique à toutes données revêtant un caractère personnel, c’est-à-dire permettant d’identifier une personne physique, incluant donc les données personnelles des exploitants. Il est demandé aux tiers manipulant des données d’être en capacité de prouver qu’ils se conforment bien à la réglementation. Le RGPD peut même s’appliquer si le responsable du traitement n’est pas établi en Europe, mais si les données portent sur des personnes au sein de l’union européenne.

La pseudonymisation ou l’anonymisation des données a pour effet de renforcer la confiance des personnes qui mettent leurs informations à la disposition d’un tier. Ceci permet aussi de limiter les conséquences d’éventuelles fuites d’information vers des tiers non autorisés. Ces techniques rendent aussi possible les traitements statistiques d’un ensemble de données, sans pour autant que les personnes ayant réalisé l’analyse n’aient eu accès aux informations personnelles.

3. Plusieurs méthodes pour garantir la confidentialité des données

Plusieurs catégories de méthodes existent pour garantir la confidentialité des données personnelles. Le choix d’une technique plutôt qu’une autre repose principalement sur le traitement prévu. Nous citons ci-dessous quelques unes de ces méthodes.

Figure 1 : Plusieurs méthodes pour garantir la confidentialité des données

La réduction des détails

Le principe consiste à retirer certains détails. On présentera les informations à un niveau de détails moins élevé, en enlevant ou remplaçant les données personnelles. Cette réduction du niveau de détail est souvent appelée généralisation – une représentation plus générale (et donc moins détaillée) est produite. Dans les données, la valeur du champ présentant des noms de particuliers prendra par exemple la valeur “PARTICULIER” ou tout autre code anonyme ; ou bien encore on supprimera les champs personnels des exploitants (“nom”, “adresse”, etc.) en ne laissant que des informations non identifiées (type d’exploitation, SAU, etc.) comme vu plus haut. Certaines techniques spécifiques [4] permettent de rendre encore plus difficile la ré-identification des données par recoupement avec d’autres sources.

L’ajout de bruits

En plus de la réduction des détails, il est possible d’ajouter du “bruit”, à savoir de nouvelles valeurs qui auront pour but de diminuer les possibilités de faire le lien avec les données personnelles. Il sera alors encore plus difficile de ré-identifier les données par recoupement avec d’autres sources d’information. Il peut s’agir par exemple de légèrement modifier certaines valeurs, comme des historiques de valeurs d’une mini-station météo qui, s’ils sont liés à une exploitation, sont des données très caractéristiques. En effet, si ces informations étaient présentent dans d’autres sources, liées à des données personnelles, un recoupement de plusieurs sources pourrait être possible. A noter qu’il faut, bien sûr, que les tiers qui ont à manipuler des données bruitées soient clairement informés du fait que la qualité des informations a été dégradée. Il ne faut pas que le bruit ajouté empêche le traitement prévu des données.

La création d’un jeu de données virtuel

Pour des utilisations dans le cadre de la recherche, il est aussi possible de simuler des jeux de données virtuels à partir de caractéristiques réelles. Des données réelles seront alors utilisées pour créer des informations virtuelles complètement anonymes, mais ayant les principales caractéristiques des données réelles. Plus précisément, les données réelles sont tout d’abord analysées pour extraire certaines caractéristiques d’intérêt pour la recherche (par exemple, la taille moyenne des exploitations ou leur nombre par région géographique). Ensuite, un nouveau jeu de données virtuel, différent des données réels, sera créé en reproduisant ces différentes caractéristiques. La simulation est une méthode pour créer ce jeu de données virtuel, qui pourra être ensuite exploité à la place du jeu réel. Ceci s’applique généralement à des sources de données de grande échelle.

Le chiffrement

Il ne s’agit pas à proprement parler d’anonymisation ou pseudonymisation. Il s’agit d’une méthode complémentaire. Le chiffrement consiste à crypter les données et, ainsi, à rendre impossible leur utilisation par des tiers ne possédant pas la clé pour les déchiffrer. Les données sont donc inexploitables pour quiconque n’a pas cette clé. Il s’agit d’une très bonne méthode pour sécuriser les données dans le cadre de leurs transmissions et de leurs stockages.

4. Evaluer l’efficacité des méthodes

Parfois, les données semblent correctement anonymisées, alors qu’en réalité ce n’est pas le cas. Des recoupements entre plusieurs sources de données en apparence anonymes peuvent permettre d’avoir accès à des informations personnelles, et ainsi ré-identifier une personne. Un exemple célèbre de ré-identification est celui des informations personnelles d’un homme politique américain [4][5], en 1997. Dans un ensemble de dossiers médicaux personnels en apparence anonymisés (les noms et les identifiants des patients avaient été enlevés), il a été possible de retrouver qu’un de ces dossiers médicaux était celui de William Weld,  un gouverneur du Massachusetts. En fait, le dossier médical de cette personne a été accédé, par recoupement assez simple de 2 sources de données apparemment « inoffensives » (voir Figure 2) :

  • Une source 1 (vendue par une société d’assurance) : des données médicales confidentielles sans les noms et les identifiants des patients, mais contenant notamment le code postal, la date de naissance et le sexe de chaque patient. 
  • Une Source 2 : des données des listes électorales contenant notamment les nom, prénom, adresse, code postal, date de naissance et sexe du votant.

La date de naissance du gouverneur était disponible dans la liste électorale. Il n’y avait que 6 personnes dans la source de données médicale ayant cette date de naissance. Parmi ces 6 personnes, 3 étaient des hommes et parmi eux seulement une personne avait le code postal du gouverneur. C’est ainsi qu’il a été possible de ré-identifier le patient du dossier à partir de sources de données prétendues anonymes. A partir de deux sources accessibles, une information personnelle particulièrement confidentielle a pu être retrouvée – un dossier médical.

Figure 2 : Comment des données médicales et une liste électorale ont été rapprochées aux Etats-Unis pour ré-identifier un patient [4][5]

Concernant le sujet de la ré-identification, selon le RGPD, pour déterminer si une personne physique est identifiable, il faut considérer l’ensemble des moyens raisonnablement susceptibles d’être utilisés pour identifier cette personne. Typiquement, il faut évaluer le coût et le temps qui seraient nécessaires à un tiers pour arriver à effectuer la ré-identification. Par exemple, selon le RGPD, la pseudonymisation d’un jeu de données peut être considérée comme efficace et suffisante, si les moyens et le temps nécessaires pour la ré-identification sont jugés très élevés. A noter qu’avec les avancées technologiques dans le domaine de l’informatique, une pseudonymisation qui est considérée comme acceptable et suffisante aujourd’hui, peut ne plus l’être dans le futur. On peut aussi prendre en considération l’enjeu de la ré-identification pour un tiers et les moyens qu’il serait prêt à dépenser pour celle-ci. Ces moyens vont bien sûr dépendre de la nature des données. L’efficacité pratique d’une pseudonymisation est donc relative. Elle dépend des technologies disponibles à une époque, ainsi que du niveau de motivation que pourrait avoir un tiers pour ré-identifier une personne, et donc aux moyens qu’il serait prêt à dépenser pour cela.

La réduction des détails des données est souvent employée pour rendre possible la diffusion et l’exploitation de celles-ci, sans risquer la ré-identification des personnes par recoupement de sources d’information. Dans ce cas, la notion de k-anonymité permet d’évaluer si les détails on été suffisamment réduits, et ainsi si les informations à diffuser sont suffisamment générales [4][5]. Pour illustrer cette notion, prenons l’exemple d’une enquête faite auprès des agriculteurs. Chaque enregistrement de la base de données stockant les réponses à cette enquête comporte le nom de l’exploitant, sa commune, les espèces qu’il cultive, ainsi que les réponses à un questionnaire. Un problème est de savoir si la base de données devient réellement anonymisée si on retire simplement les noms des exploitants – est-ce qu’il n’est alors plus possible de savoir qui a répondu quoi ? La réponse peut être oui, si aucune réponse du questionnaire ne permet la ré-identification, et s’il y a beaucoup d’exploitants qui cultivent la même chose dans la commune. Par exemple, s’il n’y a qu’un seul exploitant dans la commune, ou qu’un seul exploitant qui cultive du blé tendre, alors le risque de recoupement est fort. Il suffirait d’obtenir, par une autre source de données, le nom de l’exploitant de cette commune (qui cultive du blé tendre), et il serait possible de rapprocher les réponses aux questionnaires disponibles dans la base de données, avec l’exploitant. A l’inverse, si dans la base de données, le nombre d’exploitants cultivant du blé tendre est grand dans la commune, le risque de recoupement devient faible. La base de données est dite k-anonyme, si ce nombre se répète au moins k fois. Ce nombre k devra être fixé en fonction du niveau de risque estimé.

Mais que faire, s’il n’y a pas un nombre minimum d’exploitants cultivant du blé tendre dans la bases de données pour une commune donnée. Comme indiqué plus haut, il est possible de réduire le niveau de détails des informations, et ainsi augmenter l’anonymisation, par exemple :

  • en remplaçant les noms de communes par les noms de départements, et/ou
  • en remplaçant le terme “blé tendre” par un concept plus général (comme “céréales”).

Une fois ces remplacements faits, il faudra vérifier qu’il y ait au minimum k exploitants dans le même département, avec la même culture. Si ce n’est toujours pas le cas, le processus de réduction des détails peut être poursuivi (en remplaçant les informations jusqu’à ce que l’on atteigne un niveau de généralité suffisant). La figure 3 résume le processus.

Au sein de la même base de données, les niveaux de détails peuvent donc être hétérogènes. Par exemple, certains résultats d’enquêtes vont être associés à une commune (car les enregistrements correspondants respectent la k-anonymité à ce niveau de détail), alors que d’autres vont être associés à un département ou à une région afin de garantir une meilleur anonymisation – on aura effacé l’information sur la commune pour ces dernières enquêtes.

Figure 3 : Processus itératif d’évaluation de l’anonymisation – exemple sur un enregistrement d’une base de données

5. Conclusion

Avec la mise en application de la réglementation européenne et la prise de conscience de la protection des données personnelles, il sera nécessaire de mieux identifier les avantages et les inconvénients de ces méthodes pour différentes catégories de cas d’applications en agriculture. Une chose est sûre – il faudra anticiper l’émergence des nouvelles pratiques en matière d’utilisation des données afin de toujours garantir une protection efficace des données personnelles. Des données géo-référencées, qui pourraient sembler anonymes, peuvent par recoupement permettre de retrouver un propriétaire par sa localisation. Heureusement, les progrès de la recherche en matière de technologies pour améliorer et sécuriser les échanges de données sont très rapides [6]. Il faudra aussi travailler sur une meilleure définition de ce qui constitue une donnée personnelle au sein des exploitations, et ce afin de mieux permettre leur protection.

Version du 30 mars 2020

François Pinet, Catherine Roussey (Unité de Recherche “Technologies et Systèmes d’Information pour les agrosystème – Clermont-Ferrand”, INRAE – Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement). Contact : francois.pinet@irstea.fr

Le projet Multipass

Multipass “Faire émerger de nouveaux services pour l’agriculteur dans une chaîne de confiance gérant les gestions des consentements d’accès aux données des exploitations” est mené par ARVALIS, ACTA, FIEA, IDELE, IRSTEA, ORANGE et SMAG et ses réflexions impliquent d’autres acteurs incontournables du secteur agricole. Lauréat de l’AAP Recherche Technologique 2017, il est financé par le compte d’affectation spéciale « développement agricole et rural » (CASDAR).

Références

[1] ISO/CEI 27038:2014 – Technologies de l’information, techniques de sécurité, spécifications concernant l’expurgation numérique

[2] Anonymisation ou pseudonymisation – commission de contrôle des informations nominatives – https://www.ccin.mc/fr/fiches-pratiques

[3] Le règlement général sur la protection des données est issu de l’Union Européenne. Il fait référence en matière de protection des données personnelles. https://ec.europa.eu/info/law/law-topic/data-protection/reform/rules-business-and-organisations/principles-gdpr_fr

[4] Les techniques de k-anonymisation et L-diversité sont des exemples classiques de méthodes pour réaliser des anonymisations par réduction du niveau de détails. Voir par exemple “Techniques d’anonymisation” de Benjamin Nguyen, Statistique et société vol.2, n°4, décembre 2014.

[5] Des exemples détaillés de travaux sur l’utilisation de la k-anonymité en agriculture peuvent être trouvés dans : Anonymisation de données géo-référencées, par Loris Croce, Laëtitia Lemière, rapports de stage de Master Informatique, 2019, Université Clermont-Auvergne

[6] Au niveau international, les tous derniers résultats scientifiques et technologiques en la matière sont présentés lors de conférences telles que The Web Conference (http://www.iw3c2.org/conferences), the International Semantic Web (http://semanticweb.org) ou le colloque de la fédération européenne pour la technologie de l’information pour l’agriculture, l’alimentation et l’environnement (http://efita2019.com/about-efita-2). Ces événements regroupent des centaines de chercheurs et ingénieurs de la recherche publique et de l’industrie.

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Commentaire sur “Multipass. Episode “L’anonymisation des données””