Dall•E 2 از OpenAI ممکن است به این معنی باشد که دیگر هرگز نیازی به عکس‌های استوک نداریم

شما می توانید با امتحان آن را برای خودتان ببینید. بسیاری از چیزهایی که بلافاصله به ذهن می رسد ترکیب های خنده دار هستند. برای مثال، «یک نهنگ آبی و یک بچه گربه که در ساحل دوست می‌شوند، هنر دیجیتال» خروجی دل‌انگیز کارت تبریک زیر را تولید می‌کند.

هنگامی که یک حساب کاربری ایجاد می کنید، OpenAI 50 “اعتبار” به شما می دهد، اینها درخواست های رایگان به سیستم هستند، که در آن هر عبارت وارد شده به عنوان یک درخواست حساب می شود. هنگامی که 50 اعتبار را مصرف کردید، می توانید یک ماه صبر کنید و 15 اعتبار رایگان بعدی را دریافت کنید، یا می توانید اعتبار خریداری کنید. اعتبار در بسته های 115 تایی به قیمت 15 دلار یا 13 سنت در هر اعتبار فروخته می شود.

“یک نهنگ آبی و یک بچه گربه در حال دوست شدن در ساحل، هنر دیجیتال”

“تصویر واقع گرایانه از یک نویسنده مشارکت کننده ZDNet که آینده فناوری را در مقالات خود در دامنه کوهی در فضا می بیند.”

قلمرو چیزهای جعلی همچنان توسط هوش مصنوعی اصلاح می شود، زیرا متن جعلی چند سال پیش با برنامه پردازش زبان طبیعی GPT-3 از راه اندازی OpenAI تسلط یافت.

مجموعه-کیسه-پول-دال-2

کیسه ای پول که روی صندلی چمنزاری در ایوانی مشرف به غروب آفتاب گذاشته شده است.

چند نرده محافظ توسط OpenAI تعبیه شده است که به صورت کامل مشخص شده است خط مشی محتوای ارسال شده، و از آنها برای حذف خودکار هر تلاشی استفاده می شود. به عنوان مثال، تایپ کردن “بیل گیتس، بنیانگذار مایکروسافت، سیگار می کشد در یک آپارتمان خالی با مبلمان خراب” تولید نمی شود. در عوض، یک پیام خطایی نشان می‌دهد که درخواست را نقض می‌کند و شما را به صفحه خط‌مشی هدایت می‌کند. احتمالاً این مورد نقض قاعده “تصویر چهره های عمومی ایجاد نکنید” است.

اما می توان تعدادی عکس پیش پاافتاده تری نیز دریافت کرد که متناسب با زمینه عکاسی استوک باشد. با تایپ عبارت “A ZDNet نویسنده‌ای که در مقاله‌های خود آینده فناوری را می‌بیند، در کنار کوهی که در فضا معلق است، نوعی تصویر علمی تخیلی تولید می‌کند که نزدیک به آنچه می‌تواند همراه با یک مقاله باشد، است.

در حالی که تصاویر هنوز تا حدی خشن هستند، می توانید ببینید که DALL•E 2 این پتانسیل را دارد که جایگزین بسیاری از تصاویر تجاری و حتی عکاسی استوک شود. با تایپ یک عبارت، و یک سبک، مانند “عکس”، می توانید تصاویر مختلفی را که ممکن است برای نشان دادن مقالات مناسب باشند، خروجی بگیرید.

این امکان وجود دارد که برنامه راه ها را کنده کنیم. برخی از درخواست‌ها ممکن است بیش از حد ترکیبی از واقعی و خیالی باشند که به شکلی متقاعدکننده ارائه شوند. برای مثال، درخواست «موش‌هایی با خز آبی که میدان تایمز را اشغال می‌کنند» اولین تلاش مناسبی را ایجاد می‌کند، اما عنصر خز کیفیتی درهم و ناهموار به تصویر می‌دهد که واقعاً کار نمی‌کند.

دال-دال-نام-خود-خود-را-می داند

“آیا DALL•E 2 نام خودش را می داند؟”

“تیرنان ری در حال کشیدن سیگار در یک آپارتمان خالی با مبلمان خراب”

استفاده از عبارت “عکس کاربر بسیار مضطرب رایانه که به مانیتور رایانه خود خیره شده و هشدار وصله ویندوز را می بیند” مجموعه ای لذت بخش از تصاویر کاربران معمولی ترسناک رایانه را ایجاد کرد.

چهار نسخه در زمان ارائه شده است و شما می توانید هر یک از آنها را با فرمت PNG دانلود کنید.

مجموعه-کیسه-پول-دال-1

با افزودن آنچه “بازیابی” نامیده می شود، این برنامه نه تنها برای یافتن ترکیبی “معنای” از کلمه و تصویر، بلکه برای جستجوی ترکیبات نتایج جستجوی اینترنتی که خروجی را به خوبی تنظیم می کند، توسعه یافته است. آنها ادعا می کنند که نتایج بسیار برتر از Imagen و DALL•E 2 در استفاده از عبارات نادر و مبهم مانند “Picarones با شراب سرو می شود” است که به دسر سیب زمینی شیرین پرو اشاره دارد.


منبع: https://www.zdnet.com/article/openais-dalloe-2-may-mean-we-never-need-stock-photos-again/#ftag=RSSbaffb68

“عکس کاربر بسیار مضطرب کامپیوتر روی میز آنها به مانیتور کامپیوتر خود خیره می شوند و هشدار وصله ویندوز را می بینند.”

dalle-anxious-windows-user-set-2

نقطه قوت DALL•E 2، مانند نسخه قبلی خود، ایجاد تصاویر از متنی است که شخص در فیلدی در صفحه وب تایپ می کند. عبارت «فضانوردی سوار بر اسب به سبک فوتورئالیستی» را تایپ کنید، و تصویری تقریباً به همین شکل ظاهر می‌شود: نمایشی واقع‌گرایانه از چهره‌ای در نیم رخ در لباس فضانوردی، سوار شدن بر اسبی که در حال قدم زدن در برابر چیزی است که شبیه تصویری از فضانوردی است. کیهان.

این کار در یک مقاله تحقیقاتی توسط دانشمندان OpenAI، آدیتیا رامش و همکارانش توضیح داده شده است.تولید تصویر مشروط متن سلسله مراتبی با CLIP Latent” در سرور پیش چاپ arXiv ارسال شده است.

با به کار بردن اصطلاحات هنرمندان یا رسانه هنری یا سبک، می توان همان تصویر را از قلمرو عکاسی استوک به قلمرو تصویرسازی تغییر داد، مانند عبارت «فرانسیس بیکن نقاشی گروهی از مردم در یک اتاق کنفرانس و یک نفر». با عینکی که کنار تخته سیاه ایستاده و چیزی را توضیح می دهد.”

dall-e-2022-09-30-22-46-52-a-zdnet-نویسنده-سهام-دیدن-آینده-فناوری-در-مقالات-خود-در-کنار-کوه-هوایی- in-space.png

همانطور که می بینید، چیزهایی مانند ویژگی های صورت به طور کلی در خروجی DALL•E 2 تخریب می شوند.

و کارهایی برای گسترش پیچیدگی انواع چیزهایی که برنامه می تواند ایجاد کند، انجام می شود. به عنوان مثال، دانشمندان گوگل، Wenhu Chen و همکارانش این ماه ایجاد شد برنامه ای که Imagen Sahari و تیم را گسترش می دهد، به نام “Re-imagen” که ایده اصلی فشرده سازی متن و تصویر را با عنصر سوم، نتایج جستجو، ترکیب می کند.

«تعدادی از مردم در مقابل مک‌دونالد»

Dall•E 2 از OpenAI که این هفته به طور کلی در دسترس عموم قرار گرفت، می تواند با تایپ یک عبارت، تصاویری از انواع ژانرها و سبک ها ایجاد کند، در این مورد، “عکس یک شخص با عینک که به چند نفر در یک نقطه اشاره می کند. میز کنفرانس در اتاق جلسه.”

ZDNet

“عکس کاربر بسیار مضطرب کامپیوتر که به مانیتور کامپیوتر خود خیره شده و هشدار وصله ویندوز را می بیند”

dalle-anxious-windows-user-set-1

داله-مکدونالدز

این هفته، OpenAI لیست انتظار را حذف کرد. هر کسی اکنون می تواند به سایت بروید DALL•E 2 را تا زمانی که مایل به ایجاد یک حساب کاربری در وب سایت OpenAI با آدرس ایمیل و شماره تلفن هستند، استفاده کنید.

“یک کیسه پول که روی صندلی چمنی روی ایوانی مشرف به غروب آفتاب نشسته است.”

می‌توان عبارت «تصویر واقعی» را اضافه کرد و کمی نرم‌تر شد.

اکنون تصاویری که به لطف برنامه هایی مانند StyleGAN انویدیا به جعل قابل توجهی دست یافته بودند، معرفی کرد توسط Tero Karras و همکارانش در Nvidia در سال 2019، تابستان امسال با اعلام OpenAI برنامه جدیدی برای تصاویر جعلی، DALL•E 2، که بر اساس اولین DALL•E منتشر شده در ژانویه 2021 ساخته شده است، تقویت شد. عبارتی را که تایپ می کنید بردارید و آن را به تصویر تبدیل کنید، با روش های زیادی برای شکل دادن به تصویر خروجی.

درخواست‌های دیگر ممکن است با انتخاب یک کلمه همه چیز را به هم بزنند.

همین درخواست، جایگزین شخصیت عمومی نسبتاً کمتر شناخته شده تیرنان ری، الف ZDNet نویسنده مشارکت کننده، مجموعه ای از تصاویر سرگرم کننده از افرادی که Tiernan Ray نیستند تولید کرد.

Dale-Person-in-Meeting-Explaining-set-2

دله-فرد-در-جلسه-در حال توضیح-فرانسیس-بیکن

نکته اصلی رامش و همکارانش این است که روشی که فشرده‌سازی/فشرده‌سازی اتفاق می‌افتد به فرد اجازه می‌دهد تا بیش از ترجمه ساده بین متن و تصویر، از عباراتی برای شکل دادن به جنبه‌های یک تصویر استفاده کند، مانند افزودن عبارت “عکس واقع‌گرایانه”. که چیزی را با یک واقع گرایی ظریف تولید می کند.

DALL•E 2 که به عنوان رمزگذار-رمزگشای کنتراست شناخته می شود. این با فشرده سازی تصاویر و زیرنویس های آنها به نوعی بازنمایی ترکیبی و انتزاعی و سپس از حالت فشرده سازی آنها ساخته می شود. این رژیم آموزشی توانایی برنامه ها را برای مرتبط کردن متن و تصویر توسعه می دهد.

به نظر می رسد عباراتی که شرح نیستند، اما سؤالات یا حروف الفبا هستند، سیستم را در حالت تصادفی راه اندازی می کنند. به عنوان مثال، “آیا DALL•E 2 نام خود را می داند؟” بیانی است که چندین تصویر از گل ها را ایجاد می کند. این ممکن است یک پاسخ شاعرانه باشد، اما بیشتر شبیه رد درخواست است.

درخواست «یک کیسه پول نشسته روی صندلی چمنزار در ایوانی مشرف به غروب خورشید» تصاویر کاملاً عجیب و غیرمرتبط مانند نمای نزدیک از ناخن‌های پا و تصویری مبهم ایجاد کرد که به نظر می‌رسید چند گل در داخل یک فرش گیر کرده است.

“یک نهنگ آبی و یک بچه گربه در حال دوست شدن در ساحل، هنر دیجیتال”

علاوه بر این، به نظر می رسد متن دارای حق چاپ از نقض عمده فروشی محافظت می شود. عبارت «تعدادی از مردم که جلوی مک‌دونالد می‌آیند» صحنه‌ی مناسبی را ایجاد می‌کند، اما هر نتیجه‌ای که ارائه می‌شود تغییرات جزئی در «مک‌دونالد» دارد تا در واقع آن کلمه نباشد.

dall-e-2022-09-30-22-55-36-a-blue-hale-and-a-kitten-making-friends-on-a-beach-digital-art.png

هنگامی که شروع به تمرکز بر روی عکاسی استوک کردید، متوجه خواهید شد که می توانید سناریوهای زیادی برای تبدیل شدن به یک تصویر داشته باشید. برای مثال، «عکس شخصی با عینک که در یک میز کنفرانس در یک اتاق جلسه به چند نفر اشاره می‌کند» انتخاب بسیار خوبی از رژگونه اول مانند صحنه‌های اداری واقعی به دست می‌دهد.

جایگزینی کلمه “قرار گرفته” به جای “نشستن” به DALL•E 2 اجازه داد تا در یکی از سه تصویر، نتیجه رضایت بخشی ایجاد کند.

دله - شخص - در جلسه - توضیح دادن

Dale-rats-with-Blue-Fur

ممکن است برنامه نتواند ترکیب مناسبی از عناصر را برای چیزی که به نظر می رسد یک فعل فعال است، یعنی نشستن، در صورت ترکیب با یک شی بی جان، یک کیسه، بیابد.

این عبارت را می توان با کلمات اضافی برای به دست آوردن نتایج خاص تر، مانند “عکس کاربر بسیار مضطرب کامپیوتر” تقویت کرد. روی میز آنها به مانیتور کامپیوتر خود خیره می شوند و هشدار وصله ویندوز را می بینند.”

به طور کلی، به نظر می رسد برنامه با جنبه های مکان، مانند «ایستادن در مقابل سه پایه» دست و پنجه نرم می کند.

dall-e-zdnet-contributor-2.png

dalle-tiernan-ray-smoking-a-cigar

داله-نهنگ-و-گربه

dall-e-zdnet-contributor.png

کارها به کجا می رسند؟ کار بر روی رویکرد اساسی متن به تصویر در چندین جبهه ادامه دارد. یکی اضافه کردن پیچیدگی واژگانی بیشتر به برنامه است. به عنوان مثال، Chitwan Saharia و تیم Google Brain در ماه می منتشر شد کار آنها روی “Imagen”، برنامه ای که آنها می گویند دارای “درجه بی سابقه ای از فوتورئالیسم” است. ترفند این بود که از مجموعه ای بسیار بزرگتر از مواد زبانی برای آموزش شبکه استفاده کنید.