Avis 20230314 - Séance du 30/03/2023
Monsieur X a saisi la Commission d'accès aux documents administratifs, par courrier enregistré à son secrétariat le 16 janvier 2023, à la suite du refus opposé par le premier président de la Cour de cassation à sa demande de communication, dans un format aisément réutilisable :
1) du code source de l'outil de pseudonymisation des décisions de justice fondé sur un apprentissage supervisé, développé par la Cour de cassation ;
2) du modèle d'apprentissage utilisé.
1. S’agissant du code source :
En réponse à la demande qui lui a été adressée, le Président de la Cour de cassation a informé la commission que le code source du logiciel de pseudonymisation des décisions de justice dénommé « Label » est librement accessible en ligne à l’adresse suivante : https://github.com/Cour-de-cassation/.
La commission estime que ce document doit ainsi être regardé comme faisant l’objet d’une diffusion publique, au sens de l'article L311-2 du code des relations entre le public et l’administration. Elle déclare, par suite, la demande d’avis irrecevable en son point 1).
2. S’agissant des modèles d’apprentissage entraînés :
En l’espèce, le premier président de la Cour de cassation a précisé que le logiciel de pseudonymisation des décisions de justice repose sur deux modèles d’intelligence artificielle : d’une part, un modèle de langage, qui permet d’obtenir des vecteurs multidimensionnels de mots et d’autre part, un algorithme de reconnaissance d’entités nommées, qui a pour fonction d’identifier les éléments à occulter.
La Cour de cassation a entraîné ces deux modèles en s’appuyant sur la technique d’apprentissage automatique, c’est-à-dire pour reprendre la définition de la CNIL « un champ d’étude de l’intelligence artificielle qui vise à donner aux machines la capacité d’« apprendre » à partir de données, via des modèles mathématiques. Plus précisément, il s’agit du procédé par lequel les informations pertinentes sont tirées d’un ensemble de données d’entraînement. Le but de cette phase est l’obtention des paramètres d’un modèle qui atteindront les meilleures performances, notamment lors de la réalisation de la tâche attribuée au modèle. Une fois l’apprentissage réalisé, le modèle pourra ensuite être déployé en production ». En l’espèce, le modèle de langage a d’abord été entraîné en mode non supervisé sur un jeu de données constitué d’environ deux millions de décisions de justice intègres. L’algorithme de reconnaissance d’entités nommées a ensuite été entraîné de manière supervisée sur quelques milliers de décisions de justice non pseudonymisées et annotées.
La commission déduit des informations portées à sa connaissance que la demande doit être analysée comme tendant à la communication de ces deux modèles d’apprentissage spécifiquement entraînés par la Cour de cassation pour répondre au besoin de pseudonymisation des décisions de justice.
La commission rappelle, en premier lieu, qu’aux termes de l’article L300-2 du code des relations entre le public et l'administration, « Sont considérés comme documents administratifs, au sens des titres Ier, III et IV du présent livre, quels que soient leur date, leur lieu de conservation, leur forme et leur support, les documents produits ou reçus, dans le cadre de leur mission de service public, par l'État, les collectivités territoriales ainsi que par les autres personnes de droit public ou les personnes de droit privé chargées d'une telle mission. Constituent de tels documents notamment les dossiers, rapports, études, comptes rendus, procès-verbaux, statistiques, instructions, circulaires, notes et réponses ministérielles, correspondances, avis, prévisions, codes sources et décisions. »
Ne revêtent toutefois pas un caractère administratif, relevant du droit d’accès aux documents administratifs régi par le livre III du code des relations entre le public et l'administration, les documents juridictionnels, c’est-à-dire les documents émanant des juridictions en lien avec la fonction de juger (CE, 27 juillet 1984, n° 30590 Association SOS Défense c/Cour de cassation, p. 284 ; CE, 26 janvier 1990, n° 104236: Lebon T. 780) ainsi que ceux qui, établis par les autorités administratives, ne sont pas détachables d’une procédure juridictionnelle (CE, 2 octobre 1994, n° 123584, T. p. 951 ; CE, 31 mars 2017, Garde des Sceaux, ministre de la Justice, n° 408348).
La commission relève en l’espèce que les modèles d’apprentissage entraînés sont en lien direct avec la mission de mise à disposition du public, sous forme électronique, des décisions de justice rendues par les juridictions judiciaires, dont la Cour de cassation a la responsabilité (R111-10 du code de l’organisation judiciaire). Elle estime que ces documents sont détachables de l’activité juridictionnelle et doivent, dès lors, être regardés comme des documents administratifs au sens de l’article L300-2 du code précité.
La commission rappelle, en second lieu, qu’en application des dispositions de l'article L311-1 du code des relations entre le public et l'administration, les documents administratifs sont en principe librement communicables, sous réserve des dispositions des articles L311-5 et L311-6 du même code.
L’article L311-6 prévoit, notamment, que ne sont communicables qu'à la personne intéressée, c'est-à-dire la personne à laquelle se rapportent les informations contenues dans le document, ou son ayant droit direct, titulaire d’un droit dont il peut se prévaloir à raison du document dont il demande la communication, les documents dont la communication porterait atteinte à la protection de la vie privée.
La commission précise, enfin, qu’aux termes de l'article L311-7 de ce code : « Lorsque la demande porte sur un document comportant des mentions qui ne sont pas communicables en application des articles L311-5 et L311-6 mais qu'il est possible d'occulter ou de disjoindre, le document est communiqué au demandeur après occultation ou disjonction de ces mentions ». L’administration est en revanche fondée à refuser la communication du document dans son entier lorsque l’occultation partielle priverait ce document de son intelligibilité (CE 25 mai 1990, Min. du Budget, n°86546 Lebon T. 780) ou de son sens (CE, 4 janv. 1995, n° 117750), ou la communication de tout intérêt (CE 26 mai 2014, Cté d’agglomération de Bayonne-Anglet-Biarritz, n° 342339, Lebon T.).
En l’espèce, le premier président de la Cour de cassation s’oppose à la communication des documents sollicités au motif qu’il existe un risque que des opérations de rétro-ingénierie, à partir des paramètres de configuration des deux modèles d’apprentissage entraînés, permettent de reconstituer les données qui ont été occultées.
La commission relève à titre liminaire que la communication des modèles d’apprentissage entraînés, qui sont intrinsèquement liés - le second étant une sous-tâche du premier - fournirait une connaissance complète des poids utilisés et de leur architecture.
Elle observe, ensuite, que pour étayer ses craintes, le premier président de la Cour de cassation a souligné, d’une part, la finalité de l’algorithme de reconnaissance d’entités nommées, qui a été entraîné pour fournir une analyse prédictive et pour répondre à l’objectif attendu de pseudonymisation automatique des décisions de justice et, d’autre part, ses caractéristiques, à savoir un modèle génératif ayant la capacité de mémoriser des données. La commission en prend note et estime que le risque allégué de reconstitution des données occultées dans les décisions de justice constituant le jeu de données utilisé pour entraîner le modèle présente, en l’état actuel des connaissances scientifiques, un caractère suffisant de vraisemblance pour être tenu pour acquis.
Elle relève, enfin, le caractère sensible de ce jeu de données, les décisions de justice étant susceptibles de comporter, au nombre des mentions protégées par le secret de la vie privée des personnes concernées en application de l’article L111-13 du code de l’organisation judiciaire, des données à caractère personnel, dont des données à caractère sensibles entrant dans le champ de l’article 46 de la loi du 6 janvier 1978.
La commission déduit de ces éléments que la communication des modèles d’apprentissage entraînés par la Cour de cassation est de nature à remettre en cause la finalité même de ces modèles et plus généralement, de l’outil de pseudonymisation développé par la Cour de cassation, à savoir sécuriser la diffusion publique des décisions de justice en assurant le respect de la vie privée des personnes concernées. Elle estime, par suite, que la divulgation de ces documents mettrait en cause la protection de la vie privée au sens du 1° de l'article L311-6 du code des relations entre le public et l’administration. La commission émet, dès lors, un avis défavorable à leur communication.