شرکت اوپن ایآی (OpenAI) از اولین مدل هوش مصنوعی تبدیل متن به ویدیو خود رونمایی کرد و با استقبال بینظیری روبرو شد. هوش مصنوعی مولد سورا ویدیوهای دقیقی را از پیامهای متنی ساده ایجاد میکند. این مدل همچنین، قابلیت ساخت ادامه ویدیوهای موجود و حتی ایجاد صحنههایی بر اساس یک تصویر ثابت را دارد.
البته طبق ادعای این شرکت، هوش مصنوعی سورا (Sora) هنوز راه زیادی برای تکمیل در پیشرو دارد
اوپن ایآی، روز 15 فوریه، مدل جدید هوش مصنوعی مولد سورا را معرفی کرد که گفتهمیشود ویدیوهای دقیقی را از پیامهای متنی ساده ایجاد میکند. این مدل همچنین قابلیت ساخت ادامه ویدیوهای موجود و حتی ایجاد صحنههایی بر اساس یک تصویر ثابت را دارد. اوپن ایآی در مورد محصول جدید خود در X نوشت:
« سورا میتواند ویدیوهای حداکثر 60 ثانیهای ایجاد کند که صحنههای بسیار دقیق، حرکات پیچیدهدوربین و شخصیتهای متعدد با احساسات پر جنب و جوش را نشان میدهد.»
طبق یک پست وبلاگی در همان روز، اوپن ایآی ادعا کرد که مدل هوش مصنوعی متن به ویدیو میتواند صحنههایی شبیه به فیلم را تا وضوح 1080 ایجاد کند. این صحنهها میتواند شامل شخصیتهای متعدد، انواع خاص موشن و جزئیات دقیق سوژه و پس زمینه باشد. درست مثل نسخه قبلی مبتنی بر تصویر این شرکت (تبدیلگر متن به عکس) به نام دالای 3 (Dall-E 3)، سورا نیز بر روی مدلی که به عنوان یک مدل دیفیوژن (Diffusion) شناخته میشود، عمل میکند. مدل دیفیوژن در یادگیری ماشینی، راهی برای تولید محتوای جدید بر اساس دادههایی که روی آنها آموزش دیدهاند است. مدل Diffusion از دادههای ساده که به راحتی تولید میشوند بعنوان ورودی استفاده میکند و با تبدیل تدریجی آن به نمونه پیچیدهتر و واقعیتر نمونه جدید را ایجاد میکند.
البته اوپن ایآی اعتراف کرد که سورا همچنان دارای چندین نقطه ضعف است. در واقع برای شبیهسازی فیزیک یک صحنه پیچیده بهطور دقیق با مشکل روبرو است. این شرکت گفت ابزار جدید آنها همچنین احتمالاً «جزئیات بُعدهای» یک پرامپت را اشتباه بگیرد و چپ و راست تصویر یا جهتهای آن را به غلط پردازش کند.