AI האזין לקולות של אנשים. ואז זה יצר את פניהם.

Send

האם בנית אי פעם דימוי נפשי של אדם שמעולם לא ראית, בהתבסס רק על קולו? בינה מלאכותית (AI) יכולה כעת לעשות זאת, לייצר תמונה דיגיטלית של פניו של אדם באמצעות קליפ שמע קצר בלבד לעיון.

הרשת העצבית - מחשב ש"חושב "באופן דומה למוח האנושי - בשם Speech2Face, הוכשרה על ידי מדענים על מיליוני סרטוני חינוך מהאינטרנט שהראו כי למעלה מ 100,000 אנשים מדברים.

מתוך מערך נתונים זה, Speech2Face למדה אסוציאציות בין רמזים ווקאליים לתכונות פיזיות מסוימות בפרצוף אנושי, כתבו החוקרים במחקר חדש. ה- AI השתמש אז בקליפ שמע כדי לדגמן פנים פוטוריאליסטיות התואמות את הקול.

הממצאים פורסמו באופן מקוון ב- 23 במאי ב- arXiv של ההדפס המקדים טרם נבדקו עמיתים.

למרבה המזל, AI עדיין לא יודעת בדיוק איך נראה אדם ספציפי בהתבסס על קולו בלבד. רשת העצבים זיהתה סמנים מסוימים בנאום שהצביעו על מין, גיל ואתניות, תכונות המשותפות לאנשים רבים, כך דיווחו עורכי המחקר.

"ככאלה, המודל יפיק רק פרצופים למראה ממוצע", כתבו המדענים. "זה לא יפיק תמונות של אנשים ספציפיים."

ה- AI כבר הראה שהוא יכול לייצר פרצופים אנושיים מדויקים באופן בלתי-מודע, אם כי הפרשנויות שלו לחתולים הם קצת מפחידים.

הפרצופים שנוצרו על ידי Speech2face - כולם מול חזית וביטויים ניטרליים - לא תואמים במדויק את האנשים שמאחורי הקולות. אבל התמונות בדרך כלל תפסו את טווחי הגילאים הנכונים, האתניות והמינים של הפרטים, על פי המחקר.

עם זאת, פרשנויות האלגוריתם היו רחוקות מלהיות מושלמות. Speech2Face הדגימה "ביצועים מעורבים" כאשר התמודדה עם וריאציות שפות. לדוגמה, כאשר ה- AI האזין לקליפ שמע של גבר אסייתי הדובר סינית, התוכנית הניבה תמונה של פנים אסייתיות. עם זאת, כאשר אותו אדם דיבר באנגלית בקליפ שמע אחר, ה- AI יצר את פניו של אדם לבן, כך מדווחים המדענים.

האלגוריתם הראה גם הטיה מגדרית, שיוך קולות נמוכים עם פרצופים זכריים וקולות גבוהים עם פרצופים נשיים. ומכיוון ש מערך ההדרכה מייצג רק סרטונים חינוכיים מיוטיוב, הוא "אינו מייצג באותה מידה את כלל אוכלוסיית העולם", כתבו החוקרים.

דאגה נוספת לגבי מערך הווידאו הזה התעוררה כאשר אדם שהופיע בסרטון יוטיוב הופתע לגלות כי דמותו שולבה במחקר, כך דיווח סלייט. ניק סאליבן, ראש תחום הקריפטוגרפיה בחברת אבטחת האינטרנט Cloudflare בסן פרנסיסקו, הבחין במפתיע בפניו כאחת הדוגמאות ששימשו להדרכה של Speech2Face (ושהאלגוריתם הצליח להעתיק בערך).

סאליבן לא הסכים להופיע במחקר, אולם הסרטונים ביוטיוב במערך נתונים זה נחשבים לרבים כזמינים לשימושם של החוקרים מבלי לרכוש הרשאות נוספות.

Send