Dall•E 2 از OpenAI ممکن است به این معنی باشد که دیگر هرگز نیازی به عکس‌های استوک نداریم

“تصویر واقع گرایانه از یک نویسنده مشارکت کننده ZDNet که آینده فناوری را در مقالات خود در دامنه کوهی در فضا می بیند.”

نقطه قوت DALL•E 2، مانند نسخه قبلی خود، ایجاد تصاویر از متنی است که شخص در فیلدی در صفحه وب تایپ می کند. عبارت «فضانوردی سوار بر اسب به سبک فوتورئالیستی» را تایپ کنید، و تصویری تقریباً به همین شکل ظاهر می‌شود: نمایشی واقع‌گرایانه از چهره‌ای در نیم رخ در لباس فضانوردی، سوار شدن بر اسبی که در حال قدم زدن در برابر چیزی است که شبیه تصویری از فضانوردی است. کیهان.

Dale-Person-in-Meeting-Explaining-set-2

dalle-tiernan-ray-smoking-a-cigar

دله-فرد-در-جلسه-در حال توضیح-فرانسیس-بیکن

هنگامی که یک حساب کاربری ایجاد می کنید، OpenAI 50 “اعتبار” به شما می دهد، اینها درخواست های رایگان به سیستم هستند، که در آن هر عبارت وارد شده به عنوان یک درخواست حساب می شود. هنگامی که 50 اعتبار را مصرف کردید، می توانید یک ماه صبر کنید و 15 اعتبار رایگان بعدی را دریافت کنید، یا می توانید اعتبار خریداری کنید. اعتبار در بسته های 115 تایی به قیمت 15 دلار یا 13 سنت در هر اعتبار فروخته می شود.

“یک کیسه پول که روی صندلی چمنی روی ایوانی مشرف به غروب آفتاب نشسته است.”

علاوه بر این، به نظر می رسد متن دارای حق چاپ از نقض عمده فروشی محافظت می شود. عبارت «تعدادی از مردم که جلوی مک‌دونالد می‌آیند» صحنه‌ی مناسبی را ایجاد می‌کند، اما هر نتیجه‌ای که ارائه می‌شود تغییرات جزئی در «مک‌دونالد» دارد تا در واقع آن کلمه نباشد.

dall-e-zdnet-contributor-2.png

استفاده از عبارت “عکس کاربر بسیار مضطرب رایانه که به مانیتور رایانه خود خیره شده و هشدار وصله ویندوز را می بیند” مجموعه ای لذت بخش از تصاویر کاربران معمولی ترسناک رایانه را ایجاد کرد.

dalle-anxious-windows-user-set-2

این عبارت را می توان با کلمات اضافی برای به دست آوردن نتایج خاص تر، مانند “عکس کاربر بسیار مضطرب کامپیوتر” تقویت کرد. روی میز آنها به مانیتور کامپیوتر خود خیره می شوند و هشدار وصله ویندوز را می بینند.”

dalle-anxious-windows-user-set-1

می‌توان عبارت «تصویر واقعی» را اضافه کرد و کمی نرم‌تر شد.

به نظر می رسد عباراتی که شرح نیستند، اما سؤالات یا حروف الفبا هستند، سیستم را در حالت تصادفی راه اندازی می کنند. به عنوان مثال، “آیا DALL•E 2 نام خود را می داند؟” بیانی است که چندین تصویر از گل ها را ایجاد می کند. این ممکن است یک پاسخ شاعرانه باشد، اما بیشتر شبیه رد درخواست است.

اکنون تصاویری که به لطف برنامه هایی مانند StyleGAN انویدیا به جعل قابل توجهی دست یافته بودند، معرفی کرد توسط Tero Karras و همکارانش در Nvidia در سال 2019، تابستان امسال با اعلام OpenAI برنامه جدیدی برای تصاویر جعلی، DALL•E 2، که بر اساس اولین DALL•E منتشر شده در ژانویه 2021 ساخته شده است، تقویت شد. عبارتی را که تایپ می کنید بردارید و آن را به تصویر تبدیل کنید، با روش های زیادی برای شکل دادن به تصویر خروجی.

قلمرو چیزهای جعلی همچنان توسط هوش مصنوعی اصلاح می شود، زیرا متن جعلی چند سال پیش با برنامه پردازش زبان طبیعی GPT-3 از راه اندازی OpenAI تسلط یافت.

“عکس کاربر بسیار مضطرب کامپیوتر که به مانیتور کامپیوتر خود خیره شده و هشدار وصله ویندوز را می بیند”

به طور کلی، به نظر می رسد برنامه با جنبه های مکان، مانند «ایستادن در مقابل سه پایه» دست و پنجه نرم می کند.

همانطور که می بینید، چیزهایی مانند ویژگی های صورت به طور کلی در خروجی DALL•E 2 تخریب می شوند.

دال-دال-نام-خود-خود-را-می داند

درخواست «یک کیسه پول نشسته روی صندلی چمنزار در ایوانی مشرف به غروب خورشید» تصاویر کاملاً عجیب و غیرمرتبط مانند نمای نزدیک از ناخن‌های پا و تصویری مبهم ایجاد کرد که به نظر می‌رسید چند گل در داخل یک فرش گیر کرده است.

هنگامی که شروع به تمرکز بر روی عکاسی استوک کردید، متوجه خواهید شد که می توانید سناریوهای زیادی برای تبدیل شدن به یک تصویر داشته باشید. برای مثال، «عکس شخصی با عینک که در یک میز کنفرانس در یک اتاق جلسه به چند نفر اشاره می‌کند» انتخاب بسیار خوبی از رژگونه اول مانند صحنه‌های اداری واقعی به دست می‌دهد.

نکته اصلی رامش و همکارانش این است که روشی که فشرده‌سازی/فشرده‌سازی اتفاق می‌افتد به فرد اجازه می‌دهد تا بیش از ترجمه ساده بین متن و تصویر، از عباراتی برای شکل دادن به جنبه‌های یک تصویر استفاده کند، مانند افزودن عبارت “عکس واقع‌گرایانه”. که چیزی را با یک واقع گرایی ظریف تولید می کند.

این امکان وجود دارد که برنامه راه ها را کنده کنیم. برخی از درخواست‌ها ممکن است بیش از حد ترکیبی از واقعی و خیالی باشند که به شکلی متقاعدکننده ارائه شوند. برای مثال، درخواست «موش‌هایی با خز آبی که میدان تایمز را اشغال می‌کنند» اولین تلاش مناسبی را ایجاد می‌کند، اما عنصر خز کیفیتی درهم و ناهموار به تصویر می‌دهد که واقعاً کار نمی‌کند.

و کارهایی برای گسترش پیچیدگی انواع چیزهایی که برنامه می تواند ایجاد کند، انجام می شود. به عنوان مثال، دانشمندان گوگل، Wenhu Chen و همکارانش این ماه ایجاد شد برنامه ای که Imagen Sahari و تیم را گسترش می دهد، به نام “Re-imagen” که ایده اصلی فشرده سازی متن و تصویر را با عنصر سوم، نتایج جستجو، ترکیب می کند.

«تعدادی از مردم در مقابل مک‌دونالد»

با افزودن آنچه “بازیابی” نامیده می شود، این برنامه نه تنها برای یافتن ترکیبی “معنای” از کلمه و تصویر، بلکه برای جستجوی ترکیبات نتایج جستجوی اینترنتی که خروجی را به خوبی تنظیم می کند، توسعه یافته است. آنها ادعا می کنند که نتایج بسیار برتر از Imagen و DALL•E 2 در استفاده از عبارات نادر و مبهم مانند “Picarones با شراب سرو می شود” است که به دسر سیب زمینی شیرین پرو اشاره دارد.


منبع: https://www.zdnet.com/article/openais-dalloe-2-may-mean-we-never-need-stock-photos-again/#ftag=RSSbaffb68

“یک نهنگ آبی و یک بچه گربه در حال دوست شدن در ساحل، هنر دیجیتال”

dall-e-2022-09-30-22-46-52-a-zdnet-نویسنده-سهام-دیدن-آینده-فناوری-در-مقالات-خود-در-کنار-کوه-هوایی- in-space.png

با به کار بردن اصطلاحات هنرمندان یا رسانه هنری یا سبک، می توان همان تصویر را از قلمرو عکاسی استوک به قلمرو تصویرسازی تغییر داد، مانند عبارت «فرانسیس بیکن نقاشی گروهی از مردم در یک اتاق کنفرانس و یک نفر». با عینکی که کنار تخته سیاه ایستاده و چیزی را توضیح می دهد.”

dall-e-zdnet-contributor.png

DALL•E 2 که به عنوان رمزگذار-رمزگشای کنتراست شناخته می شود. این با فشرده سازی تصاویر و زیرنویس های آنها به نوعی بازنمایی ترکیبی و انتزاعی و سپس از حالت فشرده سازی آنها ساخته می شود. این رژیم آموزشی توانایی برنامه ها را برای مرتبط کردن متن و تصویر توسعه می دهد.

همین درخواست، جایگزین شخصیت عمومی نسبتاً کمتر شناخته شده تیرنان ری، الف ZDNet نویسنده مشارکت کننده، مجموعه ای از تصاویر سرگرم کننده از افرادی که Tiernan Ray نیستند تولید کرد.

“عکس کاربر بسیار مضطرب کامپیوتر روی میز آنها به مانیتور کامپیوتر خود خیره می شوند و هشدار وصله ویندوز را می بینند.”

این کار در یک مقاله تحقیقاتی توسط دانشمندان OpenAI، آدیتیا رامش و همکارانش توضیح داده شده است.تولید تصویر مشروط متن سلسله مراتبی با CLIP Latent” در سرور پیش چاپ arXiv ارسال شده است.

Dale-rats-with-Blue-Fur

“یک نهنگ آبی و یک بچه گربه در حال دوست شدن در ساحل، هنر دیجیتال”

dall-e-2022-09-30-22-55-36-a-blue-hale-and-a-kitten-making-friends-on-a-beach-digital-art.png

کیسه ای پول که روی صندلی چمنزاری در ایوانی مشرف به غروب آفتاب گذاشته شده است.

ممکن است برنامه نتواند ترکیب مناسبی از عناصر را برای چیزی که به نظر می رسد یک فعل فعال است، یعنی نشستن، در صورت ترکیب با یک شی بی جان، یک کیسه، بیابد.

اما می توان تعدادی عکس پیش پاافتاده تری نیز دریافت کرد که متناسب با زمینه عکاسی استوک باشد. با تایپ عبارت “A ZDNet نویسنده‌ای که در مقاله‌های خود آینده فناوری را می‌بیند، در کنار کوهی که در فضا معلق است، نوعی تصویر علمی تخیلی تولید می‌کند که نزدیک به آنچه می‌تواند همراه با یک مقاله باشد، است.

داله-مکدونالدز

دله - شخص - در جلسه - توضیح دادن

“تیرنان ری در حال کشیدن سیگار در یک آپارتمان خالی با مبلمان خراب”

“آیا DALL•E 2 نام خودش را می داند؟”

مجموعه-کیسه-پول-دال-2

شما می توانید با امتحان آن را برای خودتان ببینید. بسیاری از چیزهایی که بلافاصله به ذهن می رسد ترکیب های خنده دار هستند. برای مثال، «یک نهنگ آبی و یک بچه گربه که در ساحل دوست می‌شوند، هنر دیجیتال» خروجی دل‌انگیز کارت تبریک زیر را تولید می‌کند.

چهار نسخه در زمان ارائه شده است و شما می توانید هر یک از آنها را با فرمت PNG دانلود کنید.

Dall•E 2 از OpenAI که این هفته به طور کلی در دسترس عموم قرار گرفت، می تواند با تایپ یک عبارت، تصاویری از انواع ژانرها و سبک ها ایجاد کند، در این مورد، “عکس یک شخص با عینک که به چند نفر در یک نقطه اشاره می کند. میز کنفرانس در اتاق جلسه.”

ZDNet

جایگزینی کلمه “قرار گرفته” به جای “نشستن” به DALL•E 2 اجازه داد تا در یکی از سه تصویر، نتیجه رضایت بخشی ایجاد کند.

کارها به کجا می رسند؟ کار بر روی رویکرد اساسی متن به تصویر در چندین جبهه ادامه دارد. یکی اضافه کردن پیچیدگی واژگانی بیشتر به برنامه است. به عنوان مثال، Chitwan Saharia و تیم Google Brain در ماه می منتشر شد کار آنها روی “Imagen”، برنامه ای که آنها می گویند دارای “درجه بی سابقه ای از فوتورئالیسم” است. ترفند این بود که از مجموعه ای بسیار بزرگتر از مواد زبانی برای آموزش شبکه استفاده کنید.

درخواست‌های دیگر ممکن است با انتخاب یک کلمه همه چیز را به هم بزنند.

مجموعه-کیسه-پول-دال-1

چند نرده محافظ توسط OpenAI تعبیه شده است که به صورت کامل مشخص شده است خط مشی محتوای ارسال شده، و از آنها برای حذف خودکار هر تلاشی استفاده می شود. به عنوان مثال، تایپ کردن “بیل گیتس، بنیانگذار مایکروسافت، سیگار می کشد در یک آپارتمان خالی با مبلمان خراب” تولید نمی شود. در عوض، یک پیام خطایی نشان می‌دهد که درخواست را نقض می‌کند و شما را به صفحه خط‌مشی هدایت می‌کند. احتمالاً این مورد نقض قاعده “تصویر چهره های عمومی ایجاد نکنید” است.

این هفته، OpenAI لیست انتظار را حذف کرد. هر کسی اکنون می تواند به سایت بروید DALL•E 2 را تا زمانی که مایل به ایجاد یک حساب کاربری در وب سایت OpenAI با آدرس ایمیل و شماره تلفن هستند، استفاده کنید.

در حالی که تصاویر هنوز تا حدی خشن هستند، می توانید ببینید که DALL•E 2 این پتانسیل را دارد که جایگزین بسیاری از تصاویر تجاری و حتی عکاسی استوک شود. با تایپ یک عبارت، و یک سبک، مانند “عکس”، می توانید تصاویر مختلفی را که ممکن است برای نشان دادن مقالات مناسب باشند، خروجی بگیرید.

داله-نهنگ-و-گربه