Article 10: Données et gouvernance des données
Les systèmes d’IA à haut risque doivent utiliser des ensembles de données d’entraînement, de validation et de test de haute qualité, pertinents, représentatifs et exempts d’erreurs. Les pratiques en matière de gouvernance et de gestion des données devraient porter, entre autres, sur les choix de conception, la collecte, la préparation, la détection des biais et l’atténuation des biais. Les ensembles de données doivent tenir compte du contexte spécifique d’utilisation et refléter les caractéristiques géographiques, contextuelles, comportementales ou fonctionnelles spécifiques de l’environnement dans lequel le système fonctionnera. Ces exigences s’appliquent à tous les ensembles de données utilisés dans les systèmes d’IA à haut risque, même ceux qui n’impliquent pas d’entraînement des modèles.
Les résumés sont destinés à fournir des explications utiles, mais ne sont pas juridiquement contraignants.
1. Les systèmes d’IA à haut risque faisant appel à des techniques qui impliquent l’entraînement de modèles d’IA au moyen de données sont développés sur la base de jeux de données d’entraînement, de validation et de test qui satisfont aux critères de qualité visés aux paragraphes 2 à 5 chaque fois que ces jeux de données sont utilisés.
2. Les jeux de données d’entraînement, de validation et de test sont soumis à des pratiques en matière de gouvernance et de gestion des données appropriées à la destination du systèmes d’IA à haut risque. Ces pratiques concernent en particulier:
3. Les jeux de données d’entraînement, de validation et de test sont pertinents, suffisamment représentatifs et, dans toute la mesure possible, exempts d’erreurs et complets au regard de la destination. Ils possèdent les propriétés statistiques appropriées, y compris, le cas échéant, en ce qui concerne les personnes ou groupes de personnes à l’égard desquels le système d’IA à haut risque est destiné à être utilisé. Ces caractéristiques des jeux de données peuvent être remplies au niveau des jeux de données pris individuellement ou d’une combinaison de ceux-ci.
4. Les jeux de données tiennent compte, dans la mesure requise par la destination, des caractéristiques ou éléments propres au cadre géographique, contextuel, comportemental ou fonctionnel spécifique dans lequel le système d’IA à haut risque est destiné à être utilisé.
5. Dans la mesure où cela est strictement nécessaire aux fins de la détection et de la correction des biais en ce qui concerne les systèmes d’IA à haut risque, conformément au paragraphe 2, points f) et g), du présent article, les fournisseurs de ces systèmes peuvent exceptionnellement traiter des catégories particulières de données à caractère personnel, sous réserve de garanties appropriées pour les droits et libertés fondamentaux des personnes physiques. Outre les dispositions des règlements (UE) 2016/679 et (UE) 2018/1725 et de la directive (UE) 2016/680, toutes les conditions suivantes doivent être réunies pour que ce traitement puisse avoir lieu:
6. En ce qui concerne le développement de systèmes d’IA à haut risque qui ne font pas appel à des techniques qui impliquent l’entraînement de modèles d’IA, les paragraphes 2 à 5 s’appliquent uniquement aux jeux de données de test.