Dall•E 2 از OpenAI ممکن است به این معنی باشد که دیگر هرگز نیازی به عکسهای استوک نداریم
شما می توانید با امتحان آن را برای خودتان ببینید. بسیاری از چیزهایی که بلافاصله به ذهن می رسد ترکیب های خنده دار هستند. برای مثال، «یک نهنگ آبی و یک بچه گربه که در ساحل دوست میشوند، هنر دیجیتال» خروجی دلانگیز کارت تبریک زیر را تولید میکند.
“تصویر واقع گرایانه از یک نویسنده مشارکت کننده ZDNet که آینده فناوری را در مقالات خود در دامنه کوهی در فضا می بیند.”
قلمرو چیزهای جعلی همچنان توسط هوش مصنوعی اصلاح می شود، زیرا متن جعلی چند سال پیش با برنامه پردازش زبان طبیعی GPT-3 از راه اندازی OpenAI تسلط یافت.
کیسه ای پول که روی صندلی چمنزاری در ایوانی مشرف به غروب آفتاب گذاشته شده است.
چند نرده محافظ توسط OpenAI تعبیه شده است که به صورت کامل مشخص شده است خط مشی محتوای ارسال شده، و از آنها برای حذف خودکار هر تلاشی استفاده می شود. به عنوان مثال، تایپ کردن “بیل گیتس، بنیانگذار مایکروسافت، سیگار می کشد در یک آپارتمان خالی با مبلمان خراب” تولید نمی شود. در عوض، یک پیام خطایی نشان میدهد که درخواست را نقض میکند و شما را به صفحه خطمشی هدایت میکند. احتمالاً این مورد نقض قاعده “تصویر چهره های عمومی ایجاد نکنید” است.
اما می توان تعدادی عکس پیش پاافتاده تری نیز دریافت کرد که متناسب با زمینه عکاسی استوک باشد. با تایپ عبارت “A ZDNet نویسندهای که در مقالههای خود آینده فناوری را میبیند، در کنار کوهی که در فضا معلق است، نوعی تصویر علمی تخیلی تولید میکند که نزدیک به آنچه میتواند همراه با یک مقاله باشد، است.
استفاده از عبارت “عکس کاربر بسیار مضطرب رایانه که به مانیتور رایانه خود خیره شده و هشدار وصله ویندوز را می بیند” مجموعه ای لذت بخش از تصاویر کاربران معمولی ترسناک رایانه را ایجاد کرد.
چهار نسخه در زمان ارائه شده است و شما می توانید هر یک از آنها را با فرمت PNG دانلود کنید.
با افزودن آنچه “بازیابی” نامیده می شود، این برنامه نه تنها برای یافتن ترکیبی “معنای” از کلمه و تصویر، بلکه برای جستجوی ترکیبات نتایج جستجوی اینترنتی که خروجی را به خوبی تنظیم می کند، توسعه یافته است. آنها ادعا می کنند که نتایج بسیار برتر از Imagen و DALL•E 2 در استفاده از عبارات نادر و مبهم مانند “Picarones با شراب سرو می شود” است که به دسر سیب زمینی شیرین پرو اشاره دارد.
“عکس کاربر بسیار مضطرب کامپیوتر روی میز آنها به مانیتور کامپیوتر خود خیره می شوند و هشدار وصله ویندوز را می بینند.”
نقطه قوت DALL•E 2، مانند نسخه قبلی خود، ایجاد تصاویر از متنی است که شخص در فیلدی در صفحه وب تایپ می کند. عبارت «فضانوردی سوار بر اسب به سبک فوتورئالیستی» را تایپ کنید، و تصویری تقریباً به همین شکل ظاهر میشود: نمایشی واقعگرایانه از چهرهای در نیم رخ در لباس فضانوردی، سوار شدن بر اسبی که در حال قدم زدن در برابر چیزی است که شبیه تصویری از فضانوردی است. کیهان.
با به کار بردن اصطلاحات هنرمندان یا رسانه هنری یا سبک، می توان همان تصویر را از قلمرو عکاسی استوک به قلمرو تصویرسازی تغییر داد، مانند عبارت «فرانسیس بیکن نقاشی گروهی از مردم در یک اتاق کنفرانس و یک نفر». با عینکی که کنار تخته سیاه ایستاده و چیزی را توضیح می دهد.”
همانطور که می بینید، چیزهایی مانند ویژگی های صورت به طور کلی در خروجی DALL•E 2 تخریب می شوند.
و کارهایی برای گسترش پیچیدگی انواع چیزهایی که برنامه می تواند ایجاد کند، انجام می شود. به عنوان مثال، دانشمندان گوگل، Wenhu Chen و همکارانش این ماه ایجاد شد برنامه ای که Imagen Sahari و تیم را گسترش می دهد، به نام “Re-imagen” که ایده اصلی فشرده سازی متن و تصویر را با عنصر سوم، نتایج جستجو، ترکیب می کند.
«تعدادی از مردم در مقابل مکدونالد»
Dall•E 2 از OpenAI که این هفته به طور کلی در دسترس عموم قرار گرفت، می تواند با تایپ یک عبارت، تصاویری از انواع ژانرها و سبک ها ایجاد کند، در این مورد، “عکس یک شخص با عینک که به چند نفر در یک نقطه اشاره می کند. میز کنفرانس در اتاق جلسه.”
ZDNet
“عکس کاربر بسیار مضطرب کامپیوتر که به مانیتور کامپیوتر خود خیره شده و هشدار وصله ویندوز را می بیند”
این هفته، OpenAI لیست انتظار را حذف کرد. هر کسی اکنون می تواند به سایت بروید DALL•E 2 را تا زمانی که مایل به ایجاد یک حساب کاربری در وب سایت OpenAI با آدرس ایمیل و شماره تلفن هستند، استفاده کنید.
“یک کیسه پول که روی صندلی چمنی روی ایوانی مشرف به غروب آفتاب نشسته است.”
میتوان عبارت «تصویر واقعی» را اضافه کرد و کمی نرمتر شد.
اکنون تصاویری که به لطف برنامه هایی مانند StyleGAN انویدیا به جعل قابل توجهی دست یافته بودند، معرفی کرد توسط Tero Karras و همکارانش در Nvidia در سال 2019، تابستان امسال با اعلام OpenAI برنامه جدیدی برای تصاویر جعلی، DALL•E 2، که بر اساس اولین DALL•E منتشر شده در ژانویه 2021 ساخته شده است، تقویت شد. عبارتی را که تایپ می کنید بردارید و آن را به تصویر تبدیل کنید، با روش های زیادی برای شکل دادن به تصویر خروجی.
درخواستهای دیگر ممکن است با انتخاب یک کلمه همه چیز را به هم بزنند.
همین درخواست، جایگزین شخصیت عمومی نسبتاً کمتر شناخته شده تیرنان ری، الف ZDNet نویسنده مشارکت کننده، مجموعه ای از تصاویر سرگرم کننده از افرادی که Tiernan Ray نیستند تولید کرد.
نکته اصلی رامش و همکارانش این است که روشی که فشردهسازی/فشردهسازی اتفاق میافتد به فرد اجازه میدهد تا بیش از ترجمه ساده بین متن و تصویر، از عباراتی برای شکل دادن به جنبههای یک تصویر استفاده کند، مانند افزودن عبارت “عکس واقعگرایانه”. که چیزی را با یک واقع گرایی ظریف تولید می کند.
DALL•E 2 که به عنوان رمزگذار-رمزگشای کنتراست شناخته می شود. این با فشرده سازی تصاویر و زیرنویس های آنها به نوعی بازنمایی ترکیبی و انتزاعی و سپس از حالت فشرده سازی آنها ساخته می شود. این رژیم آموزشی توانایی برنامه ها را برای مرتبط کردن متن و تصویر توسعه می دهد.
به نظر می رسد عباراتی که شرح نیستند، اما سؤالات یا حروف الفبا هستند، سیستم را در حالت تصادفی راه اندازی می کنند. به عنوان مثال، “آیا DALL•E 2 نام خود را می داند؟” بیانی است که چندین تصویر از گل ها را ایجاد می کند. این ممکن است یک پاسخ شاعرانه باشد، اما بیشتر شبیه رد درخواست است.
درخواست «یک کیسه پول نشسته روی صندلی چمنزار در ایوانی مشرف به غروب خورشید» تصاویر کاملاً عجیب و غیرمرتبط مانند نمای نزدیک از ناخنهای پا و تصویری مبهم ایجاد کرد که به نظر میرسید چند گل در داخل یک فرش گیر کرده است.
“یک نهنگ آبی و یک بچه گربه در حال دوست شدن در ساحل، هنر دیجیتال”
علاوه بر این، به نظر می رسد متن دارای حق چاپ از نقض عمده فروشی محافظت می شود. عبارت «تعدادی از مردم که جلوی مکدونالد میآیند» صحنهی مناسبی را ایجاد میکند، اما هر نتیجهای که ارائه میشود تغییرات جزئی در «مکدونالد» دارد تا در واقع آن کلمه نباشد.
هنگامی که شروع به تمرکز بر روی عکاسی استوک کردید، متوجه خواهید شد که می توانید سناریوهای زیادی برای تبدیل شدن به یک تصویر داشته باشید. برای مثال، «عکس شخصی با عینک که در یک میز کنفرانس در یک اتاق جلسه به چند نفر اشاره میکند» انتخاب بسیار خوبی از رژگونه اول مانند صحنههای اداری واقعی به دست میدهد.
جایگزینی کلمه “قرار گرفته” به جای “نشستن” به DALL•E 2 اجازه داد تا در یکی از سه تصویر، نتیجه رضایت بخشی ایجاد کند.
ممکن است برنامه نتواند ترکیب مناسبی از عناصر را برای چیزی که به نظر می رسد یک فعل فعال است، یعنی نشستن، در صورت ترکیب با یک شی بی جان، یک کیسه، بیابد.
این عبارت را می توان با کلمات اضافی برای به دست آوردن نتایج خاص تر، مانند “عکس کاربر بسیار مضطرب کامپیوتر” تقویت کرد. روی میز آنها به مانیتور کامپیوتر خود خیره می شوند و هشدار وصله ویندوز را می بینند.”
به طور کلی، به نظر می رسد برنامه با جنبه های مکان، مانند «ایستادن در مقابل سه پایه» دست و پنجه نرم می کند.
کارها به کجا می رسند؟ کار بر روی رویکرد اساسی متن به تصویر در چندین جبهه ادامه دارد. یکی اضافه کردن پیچیدگی واژگانی بیشتر به برنامه است. به عنوان مثال، Chitwan Saharia و تیم Google Brain در ماه می منتشر شد کار آنها روی “Imagen”، برنامه ای که آنها می گویند دارای “درجه بی سابقه ای از فوتورئالیسم” است. ترفند این بود که از مجموعه ای بسیار بزرگتر از مواد زبانی برای آموزش شبکه استفاده کنید.