سیستمهای تولید تصویر مبتنی بر هوش مصنوعی تشخیص عکسهای جعلی را چنان سخت میکنند که برای شناسایی آنها مجدد به هوش مصنوعی نیاز داریم.
شاید عکسهایی را دیده باشید که چیز دیگری را نشان میدهند، مانند تصاویر بازداشت دونالد ترامپ، رئیسجمهور سابق آمریکا هفته گذشته یا یک کت سفید شیک و درخشان به تن پاپ در فرانسه.
این تصاویر ویروسی اخیر ثمره سیستمهای هوش مصنوعی است که درخواست متنی کاربر را برای ایجاد تصاویر پردازش میکند. آنها نشان میدهند که چگونه این برنامهها به سرعت توسعه یافته و اکنون به اندازهای قانعکننده هستند که یک ناظر را ناخواسته فریب دهند.
نحوه تشخیص عکس واقعی از تصویر تولید شده توسط هوش مصنوعی
پس چگونه کاربران میتوانند تصاویری را که ممکن است توسط یک سیستم هوش مصنوعی مانند DALL-E، Midjourney یا Stable Diffusion تولید شده باشد، تشخیص دهند؟ هر مولد تصویر هوش مصنوعی و هر تصویر از هر مولد مشخصی در میزان متقاعدکننده بودن و اینکه چه علائمی ممکن است الگوریتم خود را از بین ببرد، متفاوت است؛ به عنوان مثال، سیستمهای هوش مصنوعی در طول تاریخ برای تقلید از دستهای انسان تلاش کردهاند و زائدههای درهم ریخته با ارقام بیش از حد تولید کردهاند. با این حال با پیشرفت فناوری، به نظر میرسد سیستمهایی مانند Midjourney V۵ این مشکل را برطرف کردهاند، حداقل در برخی نمونهها. در کل کارشناسان میگویند تشخیص بهترین تصاویر از بهترین ژنراتورها اگر غیرممکن نباشد، دشوار است.
شیام ساندار محقق دانشگاه ایالتی پنسیلوانیا که تاثیرات روانی فناوریهای رسانهای را مطالعه میکند، میگوید: «از نظر کاری که تولیدکنندگان تصویر هوش مصنوعی قادر به انجام آن هستند، بسیار شگفتانگیز است. در یک سال گذشته یک جهش بزرگ از نظر تواناییهای تولید تصویر صورت گرفته است».
ساندار اشاره میکند که برخی از عوامل پشت این جهش در توانایی عبارتند از تعداد روزافزون تصاویر موجود برای آموزش چنین سیستمهای هوش مصنوعی و همچنین پیشرفت در زیرساختهای پردازش داده و رابطهایی که این فناوری را برای کاربران عادی اینترنت قابل دسترسی میسازد. او میگوید نتیجه این است که تصاویری که بهطور مصنوعی تولید میشوند همه جا هستند و تشخیص آنها تقریبا غیرممکن است.
یکی از آزمایشهای اخیر نشان داد که هوش مصنوعی چقدر میتواند فریب دهنده باشد. سوفی نایتینگل، روانشناس دانشگاه لنکستر در انگلیس که بر فناوری دیجیتال تمرکز دارد، پژوهشی را انجام داد مبنی بر اینکه آیا داوطلبان آنلاین میتوانند بین عکسهای گذرنامه مانند ایجاد شده توسط یک سیستم هوش مصنوعی به نام StyleGAN۲ و تصاویر واقعی تمایز قائل شوند. نتایج ناامیدکننده بود، حتی در اواخر سال ۲۰۲۱، زمانی که محققان این آزمایش را انجام دادند. نایتینگل میگوید: «به طور متوسط، مردم تقریبا قادر به تشخیص نبودند. اساسا ما در نقطهای هستیم که آنقدر واقعبینانه است که مردم نمیتوانند به طور قابل اعتماد تفاوت بین آن چهرههای مصنوعی و چهرههای واقعی را درک کنند». نایتینگل میگوید این احتمال قوی وجود دارد که افراد به دنبال استفاده از چنین برنامهای برای اهداف پلید باشند.
در آزمایش دوم، محققان سعی کردند به افراد آزمایش کمک کنند تا تواناییهای تشخیص هوش مصنوعی خود را بهبود بخشند. آنها پس از پاسخ دادن شرکتکنندگان، هر پاسخ را درست یا غلط علامتگذاری کرده و شرکتکنندگان را با خواندن توصیههایی برای تشخیص تصاویر تولید شده مصنوعی از قبل آماده کردند. این توصیه، مناطقی را که الگوریتمهای هوش مصنوعی اغلب در آنها تلو تلو میخورد و گوشوارههای نامتناسب ایجاد میکنند، یا دندانهای فرد را روی هم تار میکند، برجسته کرد. نایتینگل همچنین خاطرنشان میکند که الگوریتمها اغلب برای ایجاد چیزی پیچیدهتر از یک پس زمینه ساده تلاش میکنند، اما حتی با وجود این موارد، دقت شرکتکنندگان تنها حدود ۱۰ درصد افزایش یافت و سیستم هوش مصنوعی که تصاویر مورد استفاده در آزمایش را تولید میکند، از آن زمان به نسخه جدید و بهبود یافته ارتقاء یافته است.
از قضا با ادامه پیشرفت فناوری تولید تصویر، بهترین دفاع انسانها در برابر فریب خوردن توسط یک سیستم هوش مصنوعی ممکن است یک سیستم هوش مصنوعی دیگر باشد: سیستمی که برای تشخیص تصاویر مصنوعی آموزش دیده است. کارشناسان میگویند با پیشرفت تولید تصویر هوش مصنوعی، الگوریتمها برای شناسایی برخی از اثر انگشتهای کوچک و در مقیاس پیکسلی ایجاد رباتیک مجهزتر از انسانها هستند.
یونگ جائه لی، دانشمند کامپیوتر در دانشگاه ویسکانسین-مدیسون، میگوید: «ایجاد این برنامههای کارآگاه هوش مصنوعی مانند هر کار یادگیری ماشین دیگری عمل میکند. شما مجموعهای از دادههای تصاویر واقعی و نیز مجموعه دادهای از تصاویر تولید شده توسط هوش مصنوعی را جمعآوری میکنید، میتوانید یک مدل یادگیری ماشینی برای تشخیص این دو آموزش دهید».
به گفته لی و دیگر کارشناسان، این سیستمها دارای کاستیهای قابل توجهی هستند. بیشتر چنین الگوریتمهایی بر روی تصاویر یک ژنراتور هوش مصنوعی خاص آموزش داده میشوند و قادر به شناسایی جعلیهای تولید شده توسط الگوریتمهای مختلف نیستند. اکثر آشکارسازها همچنین فاقد رابطهای کاربر پسندی هستند که افراد زیادی را وسوسه کرده است که این تصویر را امتحان کنند.
علاوه بر این، آشکارسازهای هوش مصنوعی همیشه در تلاش هستند تا با تولیدکنندههای تصویر هوش مصنوعی که برخی از آنها الگوریتمهای تشخیص مشابهی را در خود جای دادهاند، اما از آنها به عنوان راهی برای یادگیری نحوه کاهش خروجی جعلی خود استفاده میکنند. وائل عبدالمجید، دانشیار پژوهشی علوم کامپیوتر در دانشگاه کالیفرنیای جنوبی میگوید: نبرد بین سیستمهای هوش مصنوعی که تصاویر تولید میکنند و سیستمهای هوش مصنوعی که تصاویر تولید شده توسط هوش مصنوعی را تشخیص میدهند، یک مسابقه تسلیحاتی خواهد بود. بعید است هیچ طرفی به این زودی برنده شود؛ هیچ رویکردی هرگز نمیتواند تک تک تصاویر تولید شده مصنوعی را ایجاد کند، اما این بدان معنا نیست که ما باید تسلیم شویم. او پیشنهاد میکند که پلتفرمهای رسانههای اجتماعی باید شروع به مقابله با محتوای تولید شده توسط هوش مصنوعی در سایتهای خود کنند، زیرا این شرکتها نسبت به کاربران فردی برای پیادهسازی الگوریتمهای تشخیص بهتر هستند.