Stability AI، استارتآپی که طیف وسیعی از آزمایشهای هوش مصنوعی مولد را تأمین مالی میکند، نسخه جدیدی از Stable Diffusion، سیستم هوش مصنوعی متن به تصویر را منتشر کرده است که جزو اولین سیستمهایی بود که رقیب OpenAI DALL-E 2 بود.
این سیستم جدید که Stable Diffusion XL یا SDXL نامیده می شود – که در نسخه بتا از طریق DreamStudio، ابزار هنری مولد Stability AI در دسترس است – به روش های کلیدی نسبت به نسخه اصلی بهبود می یابد. تام میسون، مدیر ارشد فناوری هوش مصنوعی پایداری، میگوید که «غنای» را برای تولید تصویر به ارمغان میآورد که مدل قدیمی (Stable Diffusion 2.1) فاقد آن بود، با پیشرفتهایی که در برنامههایی مانند طراحی گرافیکی و معماری برجستهتر است.
او در بیانیهای اعلام کرد: «ما هیجانزدهایم که آخرین نسخه را در سری راهحلهای تصویری Stable Diffusion خود اعلام کنیم. “[It’s] دگرگون کننده در چندین صنعت … با نتایجی که در مقابل چشمان ما رخ می دهد.
با کنار گذاشتن هذل، SDXL واقعاً همتراز – و شاید حتی بهتر از – آخرین نسخه مدل MIdJourney، مدلی که مسئول “Balenciaga Pope” است (در میان دیگر الگوهای رفتاری) به نظر می رسد.
در حالی که نسخه قبلی Stable Diffusion و بسیاری دیگر از سیستم های تبدیل متن به تصویر به شدت برای بازسازی آناتومی خاصی مانند دست ها تلاش می کنند، SDXL چنین مشکلی ندارد. دست ها همیشه… خوب، واقع بینانه نیستند. اما آنها فرسنگ ها جلوتر از سوخت کابوس آلود SDXL هستند.

SDXL دست ها را بهتر کنترل می کند، اما بدیهی است که کاملاً خوب نیست.

Stable Diffusion 2.1 به وضوح بدتر از دست است. (خودم را بیرون خواهم دید.)
ظاهراً SDXL در تولید متن نیز بهتر است، کاری که از لحاظ تاریخی مدلهای هنری AI مولد را برای یک حلقه پرتاب میکند. اما اگر آزمایش مختصر من نشانه ای باشد، هنوز راه هایی در پیش دارد،

در بالا، نتایج از Stable Diffusion 2.1 است. در پایین، خروجی از SDXL.
در یک بیانیه مطبوعاتی، هوش مصنوعی پایداری همچنین ادعا می کند که SDXL دارای “ترکیب تصویر پیشرفته و تولید چهره” است و بر خلاف نسخه قبلی خود نیازی به درخواست های طولانی و دقیق برای ایجاد “تصاویر توصیفی” ندارد. علاوه بر این، SDXL دارای عملکردی است که فراتر از درخواست متن به تصویر است، از جمله درخواست تصویر به تصویر (وارد کردن یک تصویر برای دریافت تغییرات آن تصویر)، inpainting (بازسازی بخش های از دست رفته یک تصویر) و نقاشی بیرونی (ساخت یکپارچه یکپارچه). پسوند یک تصویر موجود).
بهعنوان یک علامت عام، سعی کردم میم پاپ بالنسیاگا را با یک اعلان کوتاه تا حد امکان بازسازی کنم: «بالنسیاگا پاپ». باید بگویم که تفاوت در نتایج بیشتر از آن چیزی بود که انتظار داشتم، با مدلهای باند فرودگاهی SDXL که ممکن است برای طراحان در مقابل لباسهای مذهبی بهنظر سادهای که Stable Diffusion قدیمی ایجاد میکرد.
Stability AI میگوید هنگامی که از نسخه بتا خارج میشود، SDXL مانند نسخههای قبلی Stable Diffusion منبع باز خواهد بود. علاوه بر DreamStudio، SDXL در حال حاضر از طریق API Stability و همچنین در دسترسی اولیه در دسترس است.
در حالی که فناوری مولد هنر هوش مصنوعی رو به جلو حرکت می کند، ابزارهایی مانند SDXL شرکت ها را در راه ساخت و تجاری سازی آنها در آب داغ قرار داده است. هوش مصنوعی پایداری در خط تیره الف قرار دارد مورد قانونی که ادعا میکند این شرکت با توسعه ابزارهای خود با استفاده از تصاویر دارای حق چاپ تحت وب، حقوق میلیونها هنرمند را نقض کرده است. موجودی تامین کننده تصویر Getty Images همچنین هوش مصنوعی Stability را به دلیل استفاده از تصاویر سایت خود بدون مجوز برای ایجاد Stable Diffusion اصلی به دادگاه کشانده است.
انتشار منبع باز Stable Diffusion نیز به دلیل محدودیتهای استفاده نسبتاً سبک، موضوع بحث و مناقشه شده است. برخی از جوامع در سراسر وب از آن برای تولید دیپفیکهای شخصیتهای مشهور و تصاویر گرافیکی خشونت استفاده کردهاند. تا به امروز، حداقل یکی از قانونگذاران ایالات متحده خواستار تنظیم مقرراتی برای رسیدگی به عرضه مدل هایی مانند Stable Diffusion شده است که “محتوای کافی را تعدیل نمی کنند.”
در پاسخ به این شکایتها، هوش مصنوعی پایداری اخیراً متعهد شد که به درخواستهای هنرمندان برای حذف آثارشان از مجموعه دادههای آموزشی Stable Diffusion احترام بگذارد، اما این امر در مورد SDXL – فقط مدلهای نسل بعدی Stable Diffusion که با نام رمز «Stable Diffusion» نامگذاری شدهاند، صدق نمیکند. 3.0.” بنا به گفته Spawning، سازمانی که تلاش انصراف را بر عهده دارد، هنرمندان بیش از 78 میلیون اثر هنری را از دادههای آموزشی مجموعهای تا به امروز حذف کردهاند.
لعنت بر چالشهای قانونی، هوش مصنوعی پایداری برای کسب درآمد از تلاشهای هوش مصنوعی گسترده خود، که طیف وسیعی از هنر و انیمیشن تا صدای بیومد و تولیدی را در بر میگیرد، تحت فشار است. عماد مستق، مدیر عامل هوش مصنوعی پایداری به برنامههایی برای عرضه اولیه سهام اشاره کرده است، اما سمافور اخیرا گزارش داده است که هوش مصنوعی پایدار – که در اکتبر گذشته بیش از 100 میلیون دلار سرمایه مخاطرهآمیز را با ارزشی بیش از یک میلیارد دلار جمعآوری کرد – «در حال استفاده از پول نقد است و به کندی انجام میشود. پول درآوردن،”