Artykuł 10: Dane i zarządzanie danymi
Systemy AI wysokiego ryzyka muszą wykorzystywać wysokiej jakości zbiory danych treningowych, walidacyjnych i testowych. Zbiory te muszą być adekwatne, reprezentatywne oraz wolne od błędów. Praktyki w zakresie zarządzania danymi powinny obejmować m.in. decyzje projektowe, zbieranie danych, przygotowanie danych, wykrywanie stronniczości i jej ograniczanie. Zbiory danych muszą uwzględniać szczególny kontekst wykorzystywania i odzwierciedlać określone otoczenie geograficzne, behawioralne, kontekstualne lub funkcjonalne, w którym dany system będzie wykorzystywany. Wymogi te mają zastosowanie do wszystkich zbiorów danych wykorzystywanych w systemach AI wysokiego ryzyka, nawet tych, które nie obejmują trenowania modelu.
Podsumowania mają służyć jako pomocne wyjaśnienia, ale nie są prawnie wiążące.
1. Systemy AI wysokiego ryzyka, które wykorzystują techniki obejmujące trenowanie modeli AI z wykorzystaniem danych, rozwija się na podstawie zbiorów danych treningowych, walidacyjnych i testowych spełniających kryteria jakości, o których mowa w ust. 2–5, w każdym przypadku gdy takie zbiory danych są wykorzystywane.
2. Zbiory danych treningowych, walidacyjnych i testowych podlegają praktykom w zakresie zarządzania danymi stosownym do przeznaczenia danego systemu AI wysokiego ryzyka. Praktyki te dotyczą w szczególności:
3. Zbiory danych treningowych, walidacyjnych i testowych muszą być adekwatne, wystarczająco reprezentatywne oraz w jak największym stopniu wolne od błędów i kompletne z punktu widzenia przeznaczenia. Muszą się one charakteryzować odpowiednimi właściwościami statystycznymi, w tym, w stosownych przypadkach, w odniesieniu do osób lub grup osób, wobec których ma być stosowany system AI wysokiego ryzyka. Te kryteria zbiorów danych mogą zostać spełnione na poziomie pojedynczych zbiorów danych lub na poziomie ich kombinacji.
4. Zbiory danych muszą uwzględniać, w zakresie wymaganym z uwagi na ich przeznaczenie, cechy lub elementy, które są specyficzne dla określonego otoczenia geograficznego, kontekstualnego, behawioralnego lub funkcjonalnego, w którym ma być wykorzystywany system AI wysokiego ryzyka.
5. W zakresie, w jakim jest to bezwzględnie konieczne do celów zapewnienia zgodnie z ust. 2 lit. f) i g) niniejszego artykułu wykrywania i korygowania stronniczości systemów AI wysokiego ryzyka, dostawcy takich systemów mogą wyjątkowo przetwarzać szczególne kategorie danych osobowych, pod warunkiem stosowania odpowiednich zabezpieczeń w zakresie podstawowych praw i wolności osób fizycznych. Oprócz przepisów określonych w rozporządzeniach (UE) 2016/679 i (UE) 2018/1725 oraz dyrektywie (UE) 2016/680, aby takie przetwarzanie mogło się odbyć, przetwarzanie takie musi spełniać wszystkie następujące warunki:
6. W przypadkach rozwoju systemów AI wysokiego ryzyka niewykorzystujących technik obejmujących trenowanie modeli AI ust. 2–5 stosuje się jedynie do zbiorów danych testowych.