مدل جدید تبدیل متن به تصویر با کمک هوش مصنوعی

0

به تازگی شرکت OpenAI  با استفاده از مدل GPT-3  نشان داد که یک مدل یادگیری عمیق را می‌توان به سادگی و با دادن مقادیر زیادی نوشته برای تبدیل متن به تصویر آموزش داد.

همچنین آن‌ها نشان دادند که با جایگزین‌کردن متن با پیکسل، می‌توان از همین روش برای آموزش هوش مصنوعی برای تکمیل تصاویر نیمه‌تمام استفاده کرد؛ GPT-3 چگونگی استفاده انسان از کلمات را تقلید می‌کند. همچنین Image GPT-3 آنچه را می‌بینیم پیش‌بینی می‌‌کند.

اکنون OpenAI دو مدل جدید به نام DALL · E و CLIP ساخته است که زبان و تصاویر را به گونه‌‌ای ترکیب می‌کند که هوش مصنوعی را در درک کلمه و آن‌چه که به آن اشاره می‌کنند یاری می‌کند.

ایلیا ساتسکور، دانشمند ارشد OpenAI می‌گوید:

ما در یک جهان بصری زندگی می­‌کنیم. در طولانی مدت، شما مدل­‌هایی خواهید داشت که متن و تصویر را درک می‌کنند و در نتیجه در تبدیل متن به تصویر موفق عمل خواهند کرد. هوش مصنوعی می‌‌تواند زبان را بهتر درک کند زیرا قادر است معنی کلمات و جملات را بفهمد

برخی اوقات خروجی GPT-3، می­‌تواند از واقعیت دور باشد. محققان OpenAI و جاهای دیگر در تلاشند تا با قراردادن متن در تصاویر، به مدل­‌های زبانی فهم بهتری از مفاهیم روزمره‌ای که انسان‌­ها برای درک­‌کردن استفاده می­‌کنند بدهند.

در نگاه اول، (CLIP (Contrastive Language-Image Pre-Training یک سیستم شناسایی تصویر عادی است. با این تفاوت که این سیستم مانند دیگر مدل‌های موجود برای شناسایی تصاویر از نمونه‌های برچسب دار موجود در پایگاه داده استفاده نمی‌کند؛ بلکه از تصاویر موجود در اینترنت و عناوین آن‌ها استفاده می‌کند. در این روش مدل به جای اینکه از یک برچسب یک کلمه‌ای مانند “گربه” یا “موز” به تصویر پی ببرد از توصیف آنچه در تصویر است آن را می‌آموزد.

مارک ریدل، که در حوزه پردازش زبان طبیعی و خلاقیت محاسباتی در انستیتوی فناوری جورجیا در آتلانتا کار می‌کند می‌‌گوید:

تبدیل متن به تصویر یک چالش تحقیقاتی است که مدت‌هاست وجود داشته است. اما این یک نمونه قابل توجه است

برای آزمایش توانایی DALL · E در کار با مفاهیم نو، محققان عنوان‌هایی را به مدل دادند که توصیف ‌کننده اشیائی بود که مدل تا پیش از این با آ‌ن‌ها آشنا نبوده است. مانند “صندلی آووکادو” و “تصویری از تربچه در حال راه رفتن با یک سگ” که در هر دو مورد، هوش مصنوعی تصاویری ایجاد کرد که این مفاهیم را به روش‌های قابل قبولی تلفیق می‌کرد.

 

منبع: technologyreview

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.