به تازگی شرکت OpenAI با استفاده از مدل GPT-3 نشان داد که یک مدل یادگیری عمیق را میتوان به سادگی و با دادن مقادیر زیادی نوشته برای تبدیل متن به تصویر آموزش داد.
همچنین آنها نشان دادند که با جایگزینکردن متن با پیکسل، میتوان از همین روش برای آموزش هوش مصنوعی برای تکمیل تصاویر نیمهتمام استفاده کرد؛ GPT-3 چگونگی استفاده انسان از کلمات را تقلید میکند. همچنین Image GPT-3 آنچه را میبینیم پیشبینی میکند.
اکنون OpenAI دو مدل جدید به نام DALL · E و CLIP ساخته است که زبان و تصاویر را به گونهای ترکیب میکند که هوش مصنوعی را در درک کلمه و آنچه که به آن اشاره میکنند یاری میکند.
ایلیا ساتسکور، دانشمند ارشد OpenAI میگوید:
ما در یک جهان بصری زندگی میکنیم. در طولانی مدت، شما مدلهایی خواهید داشت که متن و تصویر را درک میکنند و در نتیجه در تبدیل متن به تصویر موفق عمل خواهند کرد. هوش مصنوعی میتواند زبان را بهتر درک کند زیرا قادر است معنی کلمات و جملات را بفهمد
برخی اوقات خروجی GPT-3، میتواند از واقعیت دور باشد. محققان OpenAI و جاهای دیگر در تلاشند تا با قراردادن متن در تصاویر، به مدلهای زبانی فهم بهتری از مفاهیم روزمرهای که انسانها برای درککردن استفاده میکنند بدهند.
در نگاه اول، (CLIP (Contrastive Language-Image Pre-Training یک سیستم شناسایی تصویر عادی است. با این تفاوت که این سیستم مانند دیگر مدلهای موجود برای شناسایی تصاویر از نمونههای برچسب دار موجود در پایگاه داده استفاده نمیکند؛ بلکه از تصاویر موجود در اینترنت و عناوین آنها استفاده میکند. در این روش مدل به جای اینکه از یک برچسب یک کلمهای مانند “گربه” یا “موز” به تصویر پی ببرد از توصیف آنچه در تصویر است آن را میآموزد.
مارک ریدل، که در حوزه پردازش زبان طبیعی و خلاقیت محاسباتی در انستیتوی فناوری جورجیا در آتلانتا کار میکند میگوید:
تبدیل متن به تصویر یک چالش تحقیقاتی است که مدتهاست وجود داشته است. اما این یک نمونه قابل توجه است
برای آزمایش توانایی DALL · E در کار با مفاهیم نو، محققان عنوانهایی را به مدل دادند که توصیف کننده اشیائی بود که مدل تا پیش از این با آنها آشنا نبوده است. مانند “صندلی آووکادو” و “تصویری از تربچه در حال راه رفتن با یک سگ” که در هر دو مورد، هوش مصنوعی تصاویری ایجاد کرد که این مفاهیم را به روشهای قابل قبولی تلفیق میکرد.
منبع: technologyreview