چهره‌های جعلی ایجاد شده با هوش مصنوعی مورد اعتمادتر از چهره‌های واقعی!

یک مطالعه جدید نشان می‌دهد که چهره‌های جعلی ایجاد شده توسط هوش مصنوعی از چهره‌های واقعی قابل اعتمادتر به نظر می‌رسند که موضوع نگران کننده‌ای است.

یک مطالعه جدید و در عین حال نگران کننده نشان می‌دهد که چهره‌های جعلی ایجاد شده توسط هوش مصنوعی قابل اعتمادتر از چهره افراد واقعی به نظر می‌رسند.

در این مطالعه جدید که توسط "سوفی نایتینگل" از دانشگاه "لنکستر" و "هانی فرید" از دانشگاه "کالیفرنیا برکلی" انجام شد، محققان چندین آزمایش انجام دادند تا ببینند آیا چهره‌های جعلی ایجاد شده توسط الگوریتم‌های یادگیری ماشینی می‌توانند انسان‌ها را فریب دهند یا خیر. آنها دریافتند چهره‌هایی که به ‌صورت مصنوعی تولید می‌شوند، نه تنها بسیار واقع‌گرایانه هستند، بلکه تقریباً از چهره‌های واقعی قابل تشخیص نیستند و حتی توسط افراد، قابل اعتمادتر ارزیابی می‌شوند.

محققان با توجه به این نتایج، خواستار تدابیری برای جلوگیری از پخش آنلاین "جعل عمیق" یا "دیپ فیک" هستند.

از فناوری "جعل عمیق" تاکنون برای جعل تصاویر مستهجن از افراد مشهور، کلاهبرداری و تبلیغات استفاده شده که منجر به انتشار اخبار جعلی و ایجاد دردسرهای زیادی شده است.

محققان می‌گویند: ارزیابی ما از واقع‌گرایی عکس چهره‌های مصنوعی تولید شده با هوش مصنوعی نشان می‌دهد که موتورهای تولید این تصاویر از مرزها عبور کرده‌اند و می‌توانند چهره‌هایی غیرقابل تشخیص و حتی قابل اعتمادتر از چهره‌های واقعی ایجاد کنند.

آنها می‌افزایند: شاید زیان‌بارترین نتیجه این فناوری این باشد که در دنیای دیجیتال که در آن هر تصویر یا ویدئویی را می‌توان جعل کرد، صحت هرگونه تصویر و ویدیو را می‌توان زیر سوال برد.

کارشناسان برای این مطالعه از چهره‌های جعلی استفاده کردند که با یک "شبکه زایای دشمن‌گونه" موسوم به "StyleGAN۲" متعلق به شرکت فناوری "انویدیا"(Nvidia) ساخته شده است.

شبکه‌های زایای دشمن‌گونه یا شبکه‌های مولد رقابتی(GANs) با قرار دادن دو الگوریتم در برابر یکدیگر کار می‌کنند تا تصاویر متقاعدکننده‌ای از دنیای واقعی ایجاد کنند.

شبکه‌های زایای دشمن‌گونه یک کلاس از چارچوب‌های یادگیری ماشین است که "ایان گودفلو" و همکارانش در سال ۲۰۱۴ آن را معرفی کردند. در این کلاس، دو شبکه عصبی در یک بازی که سود یک بازیکن به ضرر بازیکن دیگر است و هر گاه بازیکنی یک امتیاز می‌گیرد در واقع امتیازی از بازیکن مقابل کم می‌شود، روبروی یکدیگر قرار می‌گیرند. در نتیجه همواره مجموع امتیازات صفر است.

در این روش شبکه فرا می‌گیرد چگونه از داده‌های آموزش، داده‌های جدیدی به وجود بیاورد که از دید آماری داده‌های آموزش و به وجود آمده همسان باشند. به عبارت دیگر روش در نهایت قرار است داده‌هایی که برای آموزش استفاده می‌شوند و خروجی شبکه از لحاظ برخی ویژگی‌ها شباهت داشته باشند، وظیفه تولید خروجی بر عهده‌ی بخش زایا و وظیفه بررسی کافی بودن این شباهت بر عهده بخش دشمن‌گونه است. مانند یک بازی، اگر بخش دشمن‌گونه بتواند حدس بزند ورودی اصلی شبکه با خروجی ساخته شده توسط بخش زایا اختلاف دارند یا به عبارتی همسان نیستند، برنده می‌شود و بخش زایا مجبور است خروجی بهتری تولید کند تا جایی که بخش زایا بتواند بخش دشمن‌گونه را بفریبد در نتیجه بازی تمام شود.

برای نمونه، شبکه‌های مولد رقابتی آموزش‌یافته می‌توانند عکس‌های جدیدی را به وجود بیاورند که از دید بیننده درست باشد و بسیاری از ویژگی‌های داده‌های آموزشی را در بر بگیرد. تصور کنید قرار است از تصاویر با وضوح پایین تصاویر با وضوح بالای معادل آنها را بسازیم که علاوه بر بزرگتر بودن و با کیفیت‌تر بودن دقیقا معادل تصویر ورودی باشد. در چنین شرایطی شبکه زایای دشمن‌گونه بسیار مفید و کمک کننده است.

ایده بنیادی شبکه‌های مولد رقابتی بر پایه آموزش جداکننده است که خود نیز در فرآیند آموزش به شیوه پویا در حال به ‌روزرسانی است. بدین سان شبکه مولد به جای اینکه در پی کاهش فاصله با یک عکس باشد، در تلاش برای گمراه کردن شبکه تفکیک کننده خواهد بود. بنابراین مدل توانا می‌شود تا به روش بدون ناظر به وجود آوردن عکس‌ها را فرا بگیرد.

در آزمایش اول این مطالعه جدید، ۳۱۵ شرکت‌کننده ۱۲۸ چهره را که از یک مجموعه ۸۰۰ نفری گرفته شده بودند، به‌عنوان واقعی یا مصنوعی طبقه‌بندی کردند.

محققان دریافتند که میزان دقت آنها ۴۸ درصد است که حتی از عملکرد شانسی ۵۰ درصدی نیز کمتر است.

در آزمایش دوم به ۲۱۹ شرکت‌کننده جدید در مورد نحوه تشخیص و طبقه‌بندی چهره‌ها آموزش داده شد. آنها ۱۲۸ چهره را که از همان مجموعه ۸۰۰ چهره در آزمایش اول گرفته شده بود، طبقه‌بندی کردند، اما برخلاف اینکه آنها آموزش دیده بودند، میزان دقت فقط به ۵۹ درصد افزایش یافت.

بنابراین محققان تصمیم گرفتند تا دریابند که آیا قابل اعتماد بودن چهره‌ها می‌تواند به افراد در شناسایی تصاویر مصنوعی در آزمایش سوم کمک کند یا نه.

محققان می‌گویند: چهره‌ها منبعی غنی از اطلاعات هستند و تنها چند میلی‌ثانیه قرار گرفتن در معرض چهره یک فرد، برای استنباط ضمنی در مورد ویژگی‌های فردی وی مانند قابل اعتماد بودن کافی است.

در آزمایش سوم از ۲۲۳ شرکت‌کننده خواسته شد تا به قابلیت اعتماد ۱۲۸ چهره که از همان مجموعه ۸۰۰ تصویری گرفته شده بود، در مقیاس یک به معنی بسیار غیرقابل اعتماد تا هفت به معنی بسیار قابل اعتماد امتیاز دهند و در کمال تعجب، میانگین رتبه‌بندی برای چهره‌های مصنوعی ۷.۷ درصد قابل اعتمادتر از میانگین رتبه‌بندی برای چهره‌های واقعی بود که از نظر آماری به شدت معنی‌دار است.

چهره‌های سیاه‌پوست نسبت به چهره‌های آسیای جنوبی قابل‌اعتمادتر ارزیابی شدند، اما به جز این هیچ تاثیری در بین نژادها وجود نداشت.

ضمن اینکه زنان به طور قابل توجهی قابل اعتمادتر از مردان رتبه‌بندی شدند.

محققان ادعا می‌کنند که خندان بودن یا نبودن چهره‌ها که می‌توانست قابل اعتماد بودن فرد را افزایش دهد، بر این نتایج تأثیری نداشته است. آنها می‌گویند: در حالی که به احتمال زیاد یک چهره خندان به عنوان قابل اعتماد رتبه بندی می‌شود، اما ۶۵.۵ درصد از چهره‌های واقعی و ۵۸.۸ درصد از چهره‌های مصنوعی خندان هستند، بنابراین حالت چهره به تنهایی نمی‌تواند توضیح دهد که چرا چهره‌های مصنوعی قابل اعتمادتر ارزیابی می‌شوند.

محققان می‌گویند، دلیل اینکه چهره‌های ترکیب ‌شده قابل اعتمادتر در نظر گرفته می‌شوند، ممکن است این باشد که آنها ترکیبی از چند چهره هستند.

بنابراین محققان برای محافظت از مردم در برابر «دیپ‌فیک»، وضع دستورالعمل‌هایی را برای ایجاد و توزیع تصاویر ترکیب شده پیشنهاد کرده‌اند. به عنوان مثال، اقدامات حفاظتی می‌تواند شامل گنجاندن نشانه‌ها یا واترمارک‌های قوی در شبکه‌های ترکیب تصویر و ویدئو باشد که مکانیزمی مطمئن را برای شناسایی قابل اعتماد بودن تصاویر فراهم می‌کند.

محققان می‌گویند: همانطور که در سایر زمینه‌های علمی و مهندسی انجام شده است، ما جامعه گرافیک را تشویق می‌کنیم تا دستورالعمل‌هایی را برای ایجاد و توزیع فناوری‌های ترکیبی مصنوعی ایجاد کنند که شامل دستورالعمل‌های اخلاقی برای محققان، ناشران و توزیع‌کنندگان باشد.

این مطالعه در مجله Proceedings of the National Academy of Sciences منتشر شده است.