قانون هوش مصنوعی اتحادیه اروپا - فصل 3؛ ماده ۱۰ – داده و حاکمیت داده تصریح می‌نماید که سامانه‌های هوش مصنوعی پرمخاطره باید با بهره‌گیری از مجموعه‌داده‌های باکیفیت برای مراحل آموزش، اعتبارسنجی و آزمون توسعه یابند. این مجموعه‌داده‌ها باید با رعایت شیوه‌های صحیح حاکمیت و مدیریت داده مورد استفاده قرار گیرند و عواملی نظیر فرایندهای گردآوری داده، آماده‌سازی داده، سوگیری‌های احتمالی و شکاف‌های داده‌ای در آن‌ها مد نظر قرار گیرد. داده‌ها باید تا حد امکان مرتبط، نماینده، عاری از خطا و کامل باشند و ویژگی‌ها و زمینهٔ خاص استفاده از سامانهٔ هوش مصنوعی نیز در نظر گرفته شود. در مواردی استثنایی، عرضه‌کنندگان ممکن است برای شناسایی و اصلاح سوگیری‌ها به پردازش دسته‌های خاصی از داده‌های شخصی مبادرت ورزند، مشروط بر آن‌که تمامی شرایط سخت‌گیرانهٔ مقرر جهت صیانت از حقوق و آزادی‌های بنیادین اشخاص رعایت شود.  

ماده ۱۰ – داده و حاکمیت داده

1. سامانه‌های هوش مصنوعی پرمخاطره که از روش‌های مبتنی بر آموزش مدل‌های هوش مصنوعی با داده استفاده می‌کنند، باید بر مبنای مجموعه‌داده‌های آموزش، اعتبارسنجی و آزمون توسعه یابند که در صورت به‌کارگیری، واجد معیارهای کیفی مذکور در بندهای ۲ تا ۵ این ماده باشند.

۲. مجموعه‌داده‌های آموزش، اعتبارسنجی و آزمون باید تابع رویه‌ها و شیوه‌های حاکمیت و مدیریت داده‌ای باشند که متناسب با هدف مورد نظر سامانهٔ هوش مصنوعی پرمخاطره است. این رویه‌ها به‌ویژه باید ناظر بر موارد زیر باشند:

الف) انتخاب‌های طراحی مرتبط؛

ب) فرایندهای گردآوری داده و منشأ داده‌ها، و در مورد داده‌های شخصی، هدف اولیهٔ جمع‌آوری آن داده‌ها؛


ج) عملیات پردازشی مربوط به آماده‌سازی داده، از جمله نشانه‌گذاری، برچسب‌گذاری، پاک‌سازی، به‌روزرسانی، غنی‌سازی و تجمیع؛

د) تدوین مفروضات، به‌ویژه در خصوص اطلاعاتی که داده‌ها باید اندازه‌گیری یا بازنمایی کنند؛

هـ) ارزیابی میزان دسترسی، کمیت و تناسب مجموعه‌داده‌های مورد نیاز؛

و) بررسی سوگیری‌های احتمالی که ممکن است بر سلامت و ایمنی اشخاص تأثیر گذارده، به حقوق بنیادین لطمه وارد آورده یا منجر به تبعیض ممنوعه تحت قوانین اتحادیه گردد، به‌ویژه در مواردی که خروجی داده بر ورودی‌های عملیات آتی اثرگذار است؛

ز) اتخاذ تدابیر مقتضی برای شناسایی، پیشگیری و کاهش سوگیری‌های احتمالی شناسایی‌شده طبق جزء (و)؛

ح) شناسایی شکاف‌ها یا کاستی‌های داده‌ای مرتبط که مانع از رعایت مفاد این مقرره می‌شوند، و نحوهٔ رفع آن شکاف‌ها یا کاستی‌ها.

۳. مجموعه‌داده‌های آموزش، اعتبارسنجی و آزمون باید مرتبط، به‌قدر کافی نماینده، و تا حد امکان، عاری از خطا و کامل در راستای هدف مورد نظر باشند. این مجموعه‌داده‌ها باید واجد ویژگی‌های آماری مناسب باشند، از جمله – حسب مورد – با لحاظ اشخاص یا گروه‌هایی که سامانهٔ هوش مصنوعی پرمخاطره در خصوص آنان مورد استفاده قرار خواهد گرفت. این ویژگی‌ها ممکن است در سطح هر یک از مجموعه‌داده‌ها یا در سطح ترکیبی از آن‌ها تأمین شود.

۴. مجموعه‌داده‌ها باید، به میزان لازم و متناسب با هدف مورد نظر، ویژگی‌ها یا عناصر خاص محیط جغرافیایی، بافتی، رفتاری یا کارکردی‌ای را که سامانهٔ هوش مصنوعی پرمخاطره قرار است در آن مورد استفاده قرار گیرد، مد نظر قرار دهند.

۵. تا حدی که برای تضمین شناسایی و اصلاح سوگیری‌ها در ارتباط با سامانه‌های هوش مصنوعی پرمخاطره مطابق بند (۲)، اجزاء (و) و (ز) این ماده، به‌طور مطلق ضروری باشد، عرضه‌کنندگان این سامانه‌ها می‌توانند به‌طور استثنایی به پردازش دسته‌های خاصی از داده‌های شخصی مبادرت ورزند، مشروط بر آن‌که تدابیر مقتضی برای صیانت از حقوق و آزادی‌های بنیادین اشخاص حقیقی برقرار شده باشد. افزون بر مفاد مقررات (اتحادیه اروپا) ۲۰۱۶/۶۷۹، (اتحادیه اروپا) ۲۰۱۸/۱۷۲۵ و دستورالعمل (اتحادیه اروپا) ۲۰۱۶/۶۸۰، تحقق شرایط زیر برای انجام این پردازش الزامی است:

الف) شناسایی و اصلاح سوگیری‌ها از طریق پردازش داده‌های دیگر، از جمله داده‌های مصنوعی یا ناشناس‌سازی‌شده، عملاً ممکن نباشد؛
ب) دسته‌های خاص داده‌های شخصی، مشمول محدودیت‌های فنی درخصوص استفادهٔ مجدد از داده و همچنین تدابیر امنیتی و حریم خصوصی به‌روز، از جمله مستعارسازی (pseudonymisation) باشند؛

ج) داده‌های شخصی مذکور با تدابیری تضمین شوند که امنیت، حفاظت و وجود تضمین‌های مناسب، از جمله کنترل‌های سخت‌گیرانه و مستندسازی دسترسی را برای جلوگیری از سوء‌استفاده و اطمینان از دسترسی صرفاً توسط اشخاص مجاز با تعهدات محرمانگی مقتضی فراهم سازند؛

د) این داده‌ها به هیچ نحو منتقل، انتقال داده یا در دسترس اشخاص ثالث قرار نگیرند؛

هـ) داده‌های خاص شخصی مذکور، پس از اصلاح سوگیری یا پایان دورهٔ نگهداری داده – هرکدام که زودتر فرا رسد – حذف گردند؛

و) سوابق فعالیت‌های پردازشی مطابق مقررات (اتحادیه اروپا) ۲۰۱۶/۶۷۹، (اتحادیه اروپا) ۲۰۱۸/۱۷۲۵ و دستورالعمل (اتحادیه اروپا) ۲۰۱۶/۶۸۰ باید مشتمل بر دلایل ضرورت مطلق پردازش دسته‌های خاص داده‌های شخصی جهت شناسایی و اصلاح سوگیری‌ها و نیز توضیح عدم امکان تحقق این هدف از طریق پردازش داده‌های دیگر باشند.

۶. در خصوص توسعهٔ سامانه‌های هوش مصنوعی پرمخاطره‌ای که از روش‌های مبتنی بر آموزش مدل‌های هوش مصنوعی استفاده نمی‌کنند، مفاد بندهای ۲ تا ۵ این ماده صرفاً نسبت به مجموعه‌داده‌های آزمون قابل اعمال است.


تحلیل و تفسیر جامع ماده ۱۰ (Data and Data Governance) از قانون هوش مصنوعی اتحادیه اروپا (EU AI Act)

ماده ۱۰ از قانون هوش مصنوعی اتحادیه اروپا به یکی از حساس‌ترین جنبه‌های این مقرره می‌پردازد: کیفیت داده‌ها و حاکمیت داده در سامانه‌های هوش مصنوعی پرمخاطره (High-Risk AI Systems).

هدف اصلی این ماده:
جلوگیری از بروز سوگیری، تبعیض، خطا یا آسیب به حقوق بنیادین و ایمنی اشخاص از طریق تضمین کیفیت، شفافیت و قابلیت حسابرسی داده‌هایی است که برای آموزش و آزمون سامانه‌های هوش مصنوعی پرمخاطره مورد استفاده قرار می‌گیرند.
 

🔸 بند ۱ – الزامی بودن کیفیت داده در چرخه آموزش

قانون‌گذار تصریح می‌کند که: هر سامانهٔ پرمخاطره که از داده برای آموزش، اعتبارسنجی یا آزمون استفاده می‌کند، باید از داده‌هایی بهره ببرد که مطابق معیارهای کیفی تعیین‌شده در بندهای بعدی باشند.

🔍 تفسیر:
«پرخطر» بودن بر اساس پیوست III قانون تعریف می‌شود (مثل سامانه‌های استخدامی، مراقبت‌های بهداشتی، آموزش، زیرساخت‌های حیاتی و قضایی). قانون‌گذار بر کل چرخه داده (training, validation, testing) تأکید دارد، یعنی هیچ مرحله‌ای از فرایند یادگیری ماشینی نباید بدون کنترل کیفی باشد. در نتیجه، مسئولیت حقوقی کیفیت داده مستقیماً متوجه "تأمین‌کننده" (provider) است.
 

🔸 بند ۲ – الزام به حاکمیت داده (Data Governance)

در این بند، اتحادیه اروپا از توسعه‌دهندگان می‌خواهد که یک نظام جامع حاکمیت داده (data governance framework) برقرار کنند که شامل موارد زیر است: الف تا ح: از طراحی، جمع‌آوری، آماده‌سازی، فرضیات، ارزیابی در دسترس بودن داده، تا تحلیل سوگیری‌ها و نحوه رفع آنها.

🔍 تفسیر:
این بند در واقع نقشهٔ یک سیاست داده سازمانی (Data Management Policy) است که باید مستند، حساب‌پذیر و قابل ممیزی باشد. تأکید ویژه بر «منشأ داده» (data provenance) و «هدف اولیه گردآوری»، تطبیق مستقیم با اصول «محدودیت هدف» و «کاهش داده» در GDPR دارد.

ارزیابی سوگیری‌ها (bias assessment) برای تضمین عدالت الگوریتمی الزامی است؛ به‌ویژه وقتی خروجی‌های مدل بر تصمیمات بعدی اثرگذارند (مثلاً در الگوریتم‌های بازخوردی). در جزء (ح) به‌صراحت آمده که شکاف داده‌ای (data gaps) باید شناسایی و رفع شوند — این یعنی توسعه‌دهنده نمی‌تواند بهانهٔ نبود داده را برای توجیه سوگیری یا خطا مطرح کند.

🔸 بند ۳ – معیارهای آماری و کیفیت داده

این بند معیارهای فنی و آماری داده را بیان می‌کند: داده‌ها باید مرتبط، نماینده، کامل، تا حد امکان عاری از خطا و دارای ویژگی‌های آماری مناسب باشند.

🔍 تفسیر:
این بند در عمل الزام به Data Quality Assurance است. واژهٔ «representative» بسیار مهم است: داده‌ها باید بازتاب‌دهندهٔ واقعیت جمعیتی و بافت کاربردی سامانه باشند تا از تبعیض سیستماتیک جلوگیری شود. همچنین اشاره دارد که این معیارها می‌توانند در ترکیب چند مجموعه‌داده تأمین شوند، یعنی قانون‌گذار انعطاف لازم برای استفاده از داده‌های متنوع را پذیرفته است.
 

🔸 بند ۴ – تناسب جغرافیایی و زمینه‌ای

داده‌ها باید بافت جغرافیایی، فرهنگی، رفتاری یا عملکردی محل استفاده سامانه را در نظر گیرند.

🔍 تفسیر:
این بند از منظر عدالت الگوریتمی بسیار کلیدی است. مثلاً اگر یک سامانهٔ هوش مصنوعی برای تشخیص چهره در اتحادیهٔ اروپا توسعه می‌یابد، نمی‌تواند صرفاً بر اساس داده‌های جمع‌آوری‌شده در آمریکای شمالی آموزش دیده باشد. به بیان دیگر، قانون‌گذار محلی‌سازی داده (contextualisation of data) را الزامی می‌داند.
 

🔸 بند ۵ – پردازش استثنایی داده‌های شخصی خاص

این بند یکی از پیچیده‌ترین بخش‌هاست. به‌طور خلاصه می‌گوید: در شرایطی کاملاً استثنایی، برای کشف و اصلاح سوگیری، ممکن است پردازش «دسته‌های خاص داده‌های شخصی» (Special Categories of Personal Data) مجاز باشد، به شرط رعایت تضمین‌های بسیار سختگیرانه.

🔍 تفسیر حقوقی:
«داده‌های خاص» همان داده‌های حساس در ماده ۹ GDPR هستند (نژاد، دین، گرایش جنسی، سلامت، و غیره). پردازش این داده‌ها فقط زمانی مجاز است که واقعاً هیچ راه دیگری وجود نداشته باشد. علاوه بر این، توسعه‌دهنده باید: از روش‌های امنیتی پیشرفته (state-of-the-art) استفاده کند، داده‌ها را مستعارسازی کند، مانع هرگونه انتقال یا دسترسی ثالث شود، و پس از اتمام هدف، داده‌ها را حذف نماید. مهم‌تر از همه، باید در سوابق پردازشی (Article 30 GDPR records) مستند کند که چرا این پردازش ضرورت مطلق داشته است.
 

🔸 بند ۶ – استثنا برای سامانه‌های بدون فرایند آموزش

برای سامانه‌های پرمخاطره‌ای که مدل‌های آن‌ها با داده آموزش نمی‌یابند، الزامات فوق فقط برای داده‌های آزمون لازم‌الاجراست.

🔍 تفسیر:
مقصود، سامانه‌هایی مانند «قواعد خبره» (rule-based systems) یا «سیستم‌های منطقی مبتنی بر قوانین» است که یادگیری آماری ندارند. با این حال، چون ممکن است در مرحله آزمون از داده واقعی استفاده شود، حداقل همان داده‌ها باید تحت حاکمیت داده‌ای و کنترل سوگیری قرار گیرند.

منبع: تهیه شده در واحد فناوری های نوین راسخون