أصدرت شركة Stability AI الجيل التالي من أنموذج توليف صور يعتمد الذكاء الاصطناعي. يمكنه إنشاء صور جديدة من أوصاف النص وإنتاج صور أكثر تفصيلاً ودقة أعلى من الإصدارات السابقة من Stable Diffusion. كما هو الحال مع منتجات هذه الشركة السابقة، يمكن لأي شخص لديه الأجهزة المناسبة والخبرة التقنية تنزيل ملفات SDXL وتشغيل الأنموذج محلياً على أجهزته الخاصة مجاناً.

تعني العملية المحلية أنه لا توجد حاجة للدفع مقابل الوصول إلى أنموذج SDXL، وهناك القليل من مخاوف الرقابة، ويمكن ضبط ملفات الأوزان (التي تحتوي على بيانات الشبكة المحايدة التي تنفذ وظيفة الأنموذج) لإنشاء أنواع معينة من الصور من قبل الهواة في المستقبل.

على سبيل المثال، مع Stable Diffusion 1.5 يمكن للأنموذج الافتراضي (المدرب على مجموعة من الصور التي تم تنزيلها من الإنترنت) إنشاء نطاق واسع من الصور، ولكنه لا يعمل بشكل جيد مع المزيد من الموضوعات المتخصصة. للتعويض عن ذلك، قام الهواة بضبط النسخة الأحدث في نماذج مخصصة التي حسنت قدرة Stable Diffusion على توليد جماليات معينة، بما في ذلك الفن بأسلوب ديزني، وفن الرسوم المتحركة، والمناظر الطبيعية، والمواد المتخصصة، وصور الممثلين المشهورين أو الشخصيات العامة وأكثر من ذلك. تتوقع الشركة أن يستمر اتجاه التنمية الذي يحركه المجتمع مع SDXL، مما يسمح للأشخاص بتوسيع قدرات العرض الخاصة بهم إلى ما هو أبعد من الأنموذج الأساسي.

مثل غيره من مولدات صور الانتشار الكامن، يبدأ SDXL بضوضاء عشوائية و"يتعرف" على الصور في الضوضاء بناءً على التوجيه من موجه النص، ما يؤدي إلى تحسين الصورة خطوة بخطوة. لكن SDXL يستخدم "عمود فقري UNet أكبر بثلاث مرات"، وفقاً للشركة، مع المزيد من معلمات الأنموذج لسحب حيلها من النماذج السابقة. بلغة بسيطة هذا يعني أن بنية SDXL تقوم بمزيد من المعالجة للحصول على الصورة الناتجة.

لإنشاء الصور، تستخدم SDXL بنية "مجموعة من الخبراء" التي توجه عملية الانتشار الكامنة. تشير مجموعة الخبراء إلى منهجية يتم فيها تدريب أنموذج فردي أولي ثم تقسيمه إلى نماذج متخصصة يتم تدريبها خصيصاً لمراحل مختلفة من عملية التوليد، مما يحسن جودة الصورة. في هذه الحالة، يوجد أنموذج SDXL أساسي وأنموذج "مكرر" اختياري يمكن تشغيله بعد الجيل الأولي لجعل الصور تبدو أفضل.

والجدير بالذكر أن SDXL يستخدم أيضاً نوعين مختلفين من مشفرات النصوص التي تعطي معنى للمطالبة المكتوبة، مما يساعد على تحديد الصور المرتبطة المشفرة في أوزان الأنموذج. يمكن للمستخدمين تقديم موجه مختلف لكل برنامج تشفير، مما ينتج عنه مجموعات مفاهيم جديدة وعالية الجودة. على تويتر أظهر أحد مستخدمي هذا الإصدار مثالاً على فيل وأخطبوط تم دمجمهما باستخدام هذه التقنية.

سيطرة محلية.. فلسفة مفتوحة

قمنا بتنزيل أنموذج Stable Diffusion XL 1.0 وبتشغيله محلياً على جهاز يعمل بنظام Windows باستخدام وحدة معالجة الرسومات RTX 3060 مع 12 جيجابايت من الذاكرة. إن واجهات مثل Comfy UI و Web UI تجعل العملية أكثر سهولة في الاستخدام مما كانت عليه عندما تم إطلاق Stable Diffusion لأول مرة في العام الماضي، لكنها لا تزال تتطلب بعض التقليل الفني لتشغيلها. إذا كنت ترغب في تجربته، يمكن أن يوجهك هذا البرنامج التعليمي في الاتجاه الصحيح.

بشكل عام، رأينا أجيالاً من الصور بجودة تشبه الحلم، تتجه أكثر نحو أسلوب مولد صور AI التجاري Midjourney. يتألق SDXL من خلال توفير تفاصيل أكبر بأحجام صور أكبر، كما هو مذكور أعلاه. يبدو أيضاً أنه يتبع المطالبات بمزيد من الإخلاص، على الرغم من أن هذا أمر قابل للنقاش.

تشمل التحسينات الملحوظة الأخرى القدرة على جعل الأيدي أفضل قليلاً من نسخ SD السابقة، وهي أفضل في عرض النص في الصور. ولكن كما هو الحال مع الطرز السابقة، فإن إنشاء صور عالية الجودة لا يزال يشبه سحب رافعة ماكينات القمار والأمل في الحصول على نتيجة جيدة. يجد الخبراء أن التحفيز الدقيق (والكثير من التجارب والخطأ) هو المفتاح لتحقيق نتائج أفضل.

هناك أيضاً بعض ال عيوب عند تشغيل SDXL محلياً على الأجهزة الاستهلاكية، مثل متطلبات الذاكرة الأعلى وأوقات التوليد الأبطأ مقارنةً بالنسخة السابقة.

حتى الآن، يبدو أن هواة SD يتحسرون على عدم وجود العديد من تقنيات تعديل الطيف بعيدة المدى المضبوطة بدقة المتاحة لنماذج SD 1.5 التي تعزز الجماليات (مثل نمط العرض ثلاثي الأبعاد) أو الخلفيات الأكثر تفصيلاً لمشاهد معينة، لكنهم يتوقعون أن المجتمع سيفعل ذلك. ويسد هذه الثغرات في وقت قريب بما فيه الكفاية.

المجتمع هو المفتاح عندما يتعلق الأمر بهذا التطبيق بكل إصداراته المجانية حيث يمكن تشغيل الأنموذج محلياً دون إشراف. وهي نعمة لمشهد على الأرض من مؤلفي المزج الهواة الذين يستخدمون هذا البرنامج لصياغة أعمال فنية مثيرة للاهتمام. ولكن هذا يعني أيضاً أنه يمكن استخدام البرنامج لإنشاء صور مزيفة ومواد إباحية ومعلومات مضللة. بالنسبة إلى Stability AI فإن المفاضلة بين بعض الجوانب السلبية والانفتاح تستحق العناء.

في تقرير تقني عن SDXL مدرج في arXiv (هو أرشيف لمسودات أوراق علمية إلكترونية مكتوبة في مجالات الفيزياء، الرياضيات، الفلك، علم الحاسوب، والإحصاء التي يمكن الوصول إليها عبر الإنترنت) في وقت سابق من هذا الشهر، تشكو الشركة من أن نماذج "الصندوق الأسود" (مثل DALL-E و Midjourney من OpenAI) التي لا تسمح للمستخدمين بتنزيل ضوابط البرنامج التي تجعل العمل المجاني ممكناً للهواة "تجعل من الصعب تقييم التحيزات والقيود على هذه النماذج بطريقة محايدة وموضوعية". كما يزعمون أن الطبيعة المغلقة لتلك النماذج "تعيق الازدهار، وتخنق الابتكار، وتمنع المجتمع من البناء على هذه النماذج لتعزيز تقدم العلم والفن".

من المحتمل أن يكون هذا النوع من المثالية بمثابة راحة صغيرة للفنانين الحقيقيين الذين يشعرون بالتهديد من التكنولوجيا التي تستخدم قصاصات من أعمال الفنانين من دون إذن لتدريب مولدات صور مثل SDXL. ولن تهدأ الدعاوى القضائية المتعلقة بحقوق النشر. لكن وعلى الرغم من المشكلات الأخلاقية المتعلقة بتكنولوجيا تركيب الصور، فإنها تستمر في التقدم على أي حال، وهذه هي بالضبط الطريقة التي يحبها هواة هذه الشركة المتاحة للجميع... ومجاناً!

----

بقلم: بينجي إدواردز

ترجمة عن موقع: Ars Technica