Dall•E 2 از OpenAI ممکن است به این معنی باشد که دیگر هرگز نیازی به عکسهای استوک نداریم
سایر درخواستها ممکن است به دلیل انتخاب یک کلمه، به DALL•E 2 بیفتند.
این عبارت را می توان با کلمات اضافی برای به دست آوردن نتایج خاص تر، مانند “عکس کاربر بسیار مضطرب کامپیوتر” تقویت کرد. روی میز آنها به مانیتور کامپیوتر خود خیره می شوند و هشدار وصله ویندوز را می بینند.”
شما می توانید با امتحان آن را برای خودتان ببینید. بسیاری از چیزهایی که بلافاصله به ذهن می رسد ترکیب های خنده دار هستند. برای مثال، «یک نهنگ آبی و یک بچه گربه که در ساحل دوست میشوند، هنر دیجیتال» خروجی دلانگیز کارت تبریک زیر را تولید میکند.
در حالی که تصاویر هنوز تا حدی خشن هستند، می توانید ببینید که DALL•E 2 این پتانسیل را دارد که جایگزین بسیاری از تصاویر تجاری و حتی عکاسی استوک شود. با تایپ یک عبارت، و یک سبک، مانند “عکس”، می توانید تصاویر مختلفی را که ممکن است برای نشان دادن مقالات مناسب باشند، خروجی بگیرید.
Dall•E 2 از OpenAI که این هفته به طور کلی در دسترس عموم قرار گرفت، میتواند با تایپ یک عبارت، تصاویری در ژانرها و سبکهای مختلف ایجاد کند، در این مورد، «عکس یک شخص با عینک که به چند نفر در یک نقطه اشاره میکند. میز کنفرانس در اتاق جلسه.”
“تصویر واقعی از یک نویسنده مشارکت کننده ZDNET که آینده فناوری را در مقالات خود در دامنه کوهی که در فضا معلق است می بیند.”
همانطور که می بینید، چیزهایی مانند ویژگی های صورت به طور کلی در خروجی DALL•E 2 تخریب می شوند.
قلمرو چیزهای جعلی همچنان توسط هوش مصنوعی اصلاح می شود، زیرا متن جعلی چند سال پیش با برنامه پردازش زبان طبیعی GPT-3 از راه اندازی OpenAI تسلط یافت.
هنگامی که شروع به تمرکز بر روی عکاسی استوک کردید، متوجه خواهید شد که می توانید سناریوهای زیادی برای تبدیل شدن به یک تصویر داشته باشید. برای مثال، «عکس شخصی با عینک که در یک میز کنفرانس در یک اتاق جلسه به چند نفر اشاره میکند» انتخاب بسیار خوبی از رژگونه اول مانند صحنههای اداری واقعی به دست میدهد.
“آیا DALL•E 2 نام خودش را می داند؟”
با افزودن چیزی که آنها “بازیابی” می نامند، این برنامه نه تنها برای یافتن یک ترکیب “معنای” از کلمه و تصویر، بلکه برای جستجوی ترکیبات نتایج جستجوی اینترنتی که خروجی را به خوبی تنظیم می کند، توسعه یافته است. آنها ادعا می کنند که نتایج بسیار برتر از Imagen و DALL•E 2 در استفاده از عبارات نادر و مبهم مانند “Picarones با شراب سرو می شود” است که به دسر سیب زمینی شیرین پرو اشاره دارد.
هنگامی که یک حساب کاربری ایجاد می کنید، OpenAI 50 “اعتبار” به شما می دهد، اینها درخواست های رایگان به سیستم هستند، که در آن هر عبارت وارد شده به عنوان یک درخواست حساب می شود. هنگامی که 50 اعتبار را مصرف کردید، می توانید یک ماه صبر کنید و 15 اعتبار رایگان بعدی را دریافت کنید، یا می توانید اعتبار خریداری کنید. اعتبار در بسته های 115 تایی به قیمت 15 دلار یا 13 سنت در هر اعتبار فروخته می شود.
“موش با خز آبی که میدان تایمز را اشغال کرده است”
استفاده از عبارت “عکس کاربر بسیار مضطرب رایانه که به مانیتور رایانه خود خیره شده و هشدار وصله ویندوز را می بیند” مجموعه ای لذت بخش از تصاویر کاربران معمولی ترسناک رایانه را ایجاد کرد.
باز هم، میتوان با چند کلمه ویژگیهای خاصتر و تغییر صحنه را دریافت کرد، مانند “عکس شخصی با عینک که در کنار تخته سیاه در اتاق کنفرانس ایستاده و چیزی را برای همکارانش توضیح میدهد.”
اکنون تصاویری که به لطف برنامه هایی مانند StyleGAN انویدیا به جعل قابل توجهی دست یافته بودند، معرفی کرد توسط Tero Karras و همکارانش در Nvidia در سال 2019، تابستان امسال با اعلام OpenAI برنامه جدیدی برای تصاویر جعلی، DALL•E 2، که بر اساس اولین DALL•E منتشر شده در ژانویه 2021 ساخته شده است، تقویت شد. عبارتی را که تایپ می کنید بردارید و آن را به تصویر تبدیل کنید، با روش های زیادی برای شکل دادن به تصویر خروجی.
کیسه ای پول که روی صندلی چمنزاری در ایوانی مشرف به غروب آفتاب گذاشته شده است.
“تیرنان ری در حال کشیدن سیگار در یک آپارتمان خالی با مبلمان خراب”
این هفته، OpenAI لیست انتظار را حذف کرد. هر کسی اکنون می تواند به سایت بروید تا زمانی که مایل به ایجاد یک حساب کاربری در وب سایت OpenAI با آدرس ایمیل و شماره تلفن هستند، DALL•E 2 را برای چرخش استفاده کنند.
چند نرده محافظ توسط OpenAI تعبیه شده است که به صورت کامل مشخص شده است خط مشی محتوای ارسال شده، و از آنها برای حذف خودکار هر تلاشی استفاده می شود. به عنوان مثال، تایپ کردن “بیل گیتس، بنیانگذار مایکروسافت، سیگار می کشد در یک آپارتمان خالی با مبلمان خراب” تولید نمی شود. در عوض، یک پیام خطایی نشان میدهد که درخواست را نقض میکند و شما را به صفحه خطمشی هدایت میکند. احتمالاً این مورد نقض قاعده “تصویر چهره های عمومی ایجاد نکنید” است.
امکان کنده شدن برنامه وجود دارد. برخی از درخواستها ممکن است بیش از حد ترکیبی از واقعی و خیالی باشند که به شکلی متقاعدکننده ارائه شوند. برای مثال، درخواست «موشهایی با خز آبی که میدان تایمز را اشغال میکنند» اولین تلاش مناسبی را ایجاد میکند، اما عنصر خز کیفیتی درهم و ناهموار به تصویر میدهد که واقعاً کار نمیکند.
“یک نهنگ آبی و یک بچه گربه در حال دوست شدن در ساحل، هنر دیجیتال”
DALL•E 2 چیزی است که به عنوان رمزگذار-رمز کن کنتراست شناخته می شود. این با فشرده سازی تصاویر و زیرنویس های آنها به نوعی بازنمایی ترکیبی و انتزاعی و سپس از حالت فشرده سازی آنها ساخته می شود. این آموزش توانایی برنامه را برای مرتبط کردن متن و تصویر توسعه می دهد.
“یک نویسنده مشارکت کننده ZDNET که آینده فناوری را در مقالات خود در دامنه کوه معلق در فضا می بیند”
اما می توان تعدادی عکس پیش پاافتاده تری نیز دریافت کرد که متناسب با زمینه عکاسی استوک باشد. تایپ عبارت «نویسنده مشارکتکننده ZDNET که آینده فناوری را در مقالههای خود میبیند از دامنه کوهی که در فضا معلق است» نوعی تصویر علمی تخیلی ایجاد میکند که نزدیک به چیزی است که میتواند همراه با مقاله باشد.
کارها به کجا می رسند؟ کار بر روی رویکرد اساسی متن به تصویر در چندین جبهه ادامه دارد. یکی اضافه کردن پیچیدگی واژگانی بیشتر به برنامه است. به عنوان مثال، Chitwan Saharia و تیم Google Brain در ماه می منتشر شد کار آنها روی “Imagen”، برنامه ای که آنها می گویند دارای “درجه بی سابقه ای از فوتورئالیسم” است. ترفند این بود که از مجموعه ای بسیار بزرگتر از مواد زبانی برای آموزش شبکه استفاده کنید.
«تعدادی از مردم در مقابل مکدونالد»
میتوان عبارت «تصویر واقعی» را اضافه کرد و کمی نرمتر شد.
چهار نسخه در زمان ارائه شده است و شما می توانید هر یک از آنها را با فرمت PNG دانلود کنید.
به طور کلی، به نظر می رسد برنامه با جنبه های مکان، مانند «ایستادن در مقابل سه پایه» دست و پنجه نرم می کند.
علاوه بر این، به نظر می رسد متن دارای حق چاپ از نقض عمده فروشی محافظت می شود. عبارت «تعدادی از مردم که جلوی مکدونالد میآیند» صحنهی مناسبی را ایجاد میکند، اما هر نتیجهای که ارائه میشود تغییرات جزئی در «مکدونالد» دارد تا در واقع آن کلمه نباشد.
و کار در حال انجام است تا پیچیدگی انواع چیزهایی که یک برنامه می تواند بسازد را گسترش دهد. به عنوان مثال، دانشمندان گوگل، Wenhu Chen و همکارانش این ماه ایجاد شد برنامه ای که Imagen Sahari و تیم را گسترش می دهد، به نام “Re-imagen” که ایده اصلی فشرده سازی متن و تصویر را با عنصر سوم، نتایج جستجو، ترکیب می کند.
ممکن است برنامه نتواند ترکیب مناسبی از عناصر را برای چیزی که به نظر می رسد یک فعل فعال است، یعنی نشستن، در صورت ترکیب با یک شی بی جان، یک کیسه، پیدا کند.
“عکس کاربر بسیار مضطرب کامپیوتر که به مانیتور کامپیوتر خود خیره شده و هشدار وصله ویندوز را می بیند”
به نظر می رسد عباراتی که شرح نیستند، اما سؤالات یا حروف الفبا هستند، سیستم را در حالت تصادفی راه اندازی می کنند. به عنوان مثال، “آیا DALL•E 2 نام خود را می داند؟” بیانی است که چندین تصویر از گل ها را ایجاد می کند. این ممکن است یک پاسخ شاعرانه باشد، اما بیشتر شبیه رد درخواست است.
“یک کیسه پول که روی صندلی چمنی روی ایوانی مشرف به غروب آفتاب نشسته است.”