בשבוע שעבר עלתה הנבחרת החדשה של ארה"ב, אלכסנדריה אוקסיו-קורטז, לכותרות כשאמרה, כחלק מהאירוע השנתי הרביעי של MLK Now, כי לטכנולוגיות ואלגוריתמים לזיהוי פנים "יש תמיד אי-שוויון גזעי זה שמתורגמים, מכיוון שאלגוריתמים עדיין נעשים על ידי בני אדם, והאלגוריתמים האלה עדיין קשורים להנחות אנושיות בסיסיות. הם פשוט אוטומטיים. והנחות אוטומטיות - אם אתה לא מתקן את ההטיה, אתה פשוט ממכן את ההטיה. "
האם פירוש הדבר שאלגוריתמים, המבוססים תיאורטית על האמיתות האובייקטיביות של המתמטיקה, יכולים להיות "גזעניים?" ואם כן, מה ניתן לעשות כדי להסיר את ההטיה הזו?
מסתבר שהפלט מאלגוריתמים אכן יכול להניב תוצאות מוטות. מדעני נתונים אומרים שתוכנות מחשב, רשתות עצביות, אלגוריתמים למידת מכונות ובינה מלאכותית (AI) עובדות מכיוון שהם לומדים כיצד להתנהג מנתונים שניתנים להם. תוכנה נכתבת על ידי בני אדם, בעלי משוא פנים, ונתוני אימונים נוצרים גם על ידי בני אדם בעלי הטיה.
שני השלבים של למידת מכונות מראים כיצד הטיה זו יכולה לזחול לתהליך אוטומטי לכאורה. בשלב הראשון, שלב האימונים, אלגוריתם לומד על בסיס מערך נתונים או על כללים או הגבלות מסוימים. השלב השני הוא שלב ההיקעה, בו אלגוריתם מיישם את מה שלמד בפועל. שלב שני זה חושף את הטיות האלגוריתם. לדוגמה, אם אלגוריתם מאומן עם תמונות של נשים בלבד שיש להן שיער ארוך, הוא יחשוב שמישהו עם שיער קצר הוא גבר.
גוגל יצאה לשמצה לשמצה בשנת 2015 כשאלבומי גוגל תייגו אנשים שחורים כגורילות, ככל הנראה מכיוון שאלו היו היצורים כהות העור במערך האימונים.
והטיה יכולה להתגנב דרך שדרות רבות. "טעות נפוצה היא הכשרת אלגוריתם לביצוע תחזיות המבוססות על החלטות עבר של בני אדם מוטים," אמרה סופי סירסי, מדענית נתונים בכירה במאגר נתונים-מדעי-ההכשרה Bootcamp Metis, ל- Live Science. "אם אני אלגור אלגוריתם לאוטומציה של החלטות שקיבלה קבוצת קבצי הלוואות שקודם לכן קיבלה את הדרך הקלה ואאמן את האלגוריתם על החלטות קודמות מצד אותם קציני הלוואות. אבל כמובן, אם אותם קציני הלוואות היו מוטים, אז האלגוריתם שאני בונה ימשיך את ההטיות האלה. "
סירסי ציין את הדוגמה של COMPAS, כלי ניבוי המשמש בכל מערכת המשפט הפלילית האמריקאית לגזר הדין, שמנסה לחזות היכן יתרחש פשע. ProPublica ביצעה ניתוח ב- COMPAS ומצאה כי לאחר שבדק אחר הסברים סטטיסטיים אחרים, הכלי העריך יתר על המידה את הסיכון לחזרתיות אצל נאשמים שחורים, והערך בעקביות את הסיכון עבור נאשמים לבנים.
כדי לסייע במאבק בהטיות אלגוריתמיות, אמר סרסי ל- Live Science, על מהנדסים ומדעני נתונים לבנות מערכי נתונים מגוונים יותר לבעיות חדשות, כמו גם לנסות להבין ולהקטין את ההטיה המובנית במערכות נתונים קיימות.
בראש ובראשונה, אמר אירה כהן, מדען נתונים בחברת אנודיות אנליטית מנבאת, על מהנדסים להיות בעלי הכשרה עם ייצוג אחיד יחסית של כל סוגי האוכלוסיות אם הם מכשירים אלגוריתם לזיהוי תכונות אתניות או מגדריות. "חשוב לייצג מספיק דוגמאות מכל קבוצת אוכלוסייה, גם אם הם מיעוט באוכלוסייה הכוללת הנבדקת", אמר כהן ל- Live Science. לבסוף, כהן ממליץ לבדוק הטיות במערכת מבחן הכוללת אנשים מכל הקבוצות הללו. כהן אמר ל- LiveScience, "אם למרוץ מסוים הדיוק נמוך באופן סטטיסטי משמעותית מהקטגוריות האחרות, ייתכן שהאלגוריתם יטה הטיה. הייתי מעריך את נתוני האימונים ששימשו אותו." לדוגמה, אם האלגוריתם יכול לזהות נכון 900 מתוך 1,000 פרצופים לבנים, אך מזהה נכון רק 600 מתוך 1000 פרצופים אסייתיים, אז לאלגוריתם יש הטיה "נגד" האסיאנים, הוסיף כהן.
הסרת הטיה יכולה להיות מאתגרת להפליא עבור AI.
אפילו גוגל, שנחשבה כמבשרת ראשית בתחום ה- AI המסחרי, ככל הנראה לא הצליחה למצוא פיתרון כולל לבעיית הגורילות שלה משנת 2015. Wired גילתה כי במקום למצוא דרך לאלגוריתמים שלה להבחין בין אנשים בצבע לגורילות, גוגל פשוט חסמה אלגוריתמי זיהוי התמונות שלה מזיהוי גורילות בכלל.
הדוגמה של גוגל היא תזכורת טובה לכך שאימוני תוכנת AI יכולה להיות תרגיל קשה, במיוחד כאשר תוכנה לא נבדקת ולא מאומנת על ידי קבוצה מייצגת ומגוונת של אנשים.