يتيح أنموذج تجميع الصور مفتوح المصدر الذي تم إصداره حديثاً والمسمى Stable Diffusion لأي شخص لديه جهاز كمبيوتر ووحدة معالجة رسومات مناسبة لاستحضار أي واقع مرئي تقريباً يمكنه تخيله. يمكنه تقليد أي نمط مرئي تقريباً، وإذا قمت بتغذيته بعبارة وصفية مناسبة، فستظهر النتائج على شاشتك مثل السحر.

يسعد بعض الفنانين بهذا الاحتمال، والبعض الآخر ليس سعيداً أبداً، ولا يزال المجتمع عموماً غير مدرك إلى حد كبير للثورة التكنولوجية سريعة التطور التي تحدث من خلال المجتمعات على تويتر ومثيلاتها. يمكن القول إن تركيب الصورة له آثار كبيرة مثل اختراع الكاميرا - أو ربما خلق الفن المرئي نفسه. حتى إحساسنا بالتاريخ قد يكون على المحك، اعتماداً على كيفية تغير الأمور. في كلتا الحالتين، يقود Stable Diffusion موجة جديدة من أدوات التعلم العميق الإبداعية التي تستعد لإحداث ثورة في إنشاء الوسائط المرئية.

صورة التعلم العميق

Stable Diffusion هو من بنات أفكار عماد موستاك، مدير صندوق التحوط السابق في لندن والذي يهدف إلى تقديم تطبيقات جديدة للتعلم العميق إلى الجماهير من خلال شركته Stability AI. لكن جذور تركيب الصور الحديثة تعود إلى عام 2014، ولم يكن Stable Diffusion هو أول أنموذج لتركيب الصور (ISM) يصنع موجات هذا العام.

صور مبتكرة

في أبريل 2022 أعلنت شركة OpenAI عن DALL-E 2، والتي صدمت وسائل التواصل الاجتماعي بقدرتها على تحويل مشهد مكتوب بالكلمات (يسمى "موجه") إلى أنماط بصرية لا تعد ولا تحصى يمكن أن تكون رائعة أو واقعية أو حتى عادية. قام الأشخاص الذين يتمتعون بامتياز الوصول إلى الأداة المغلقة بتوليد رواد فضاء يمتطون ظهور الخيل، ودمى الدببة تشتري الخبز في مصر القديمة، ومنحوتات جديدة بأسلوب الفنانين المشهورين، وأكثر من ذلك بكثير.

بعد فترة وجيزة من DALL-E 2، أعلنت غوغل وميتا عن نماذج الذكاء الاصطناعي الخاصة بهما الخاصة بتحويل النص إلى صورة. ثم كان هناك Stable Diffusion. حيث أصدرت Stability AI أنموذجها لتوليد الصور مفتوحة المصدر. أطلقت أيضاً موقع الويب التجاري الخاص بها، المسمى DreamStudio، والذي يبيع الوصول إلى وقت الحساب لتوليد الصور باستخدام Stable Diffusion. يمكن لأي شخص استخدام هذا البرنامج، وبما أن كود Stable Diffusion مفتوح المصدر، يمكن لأي شركة أو شخص بناؤه مع قيود قليلة.

في الأسبوع الماضي وحده، ظهرت العشرات من المشاريع التي تأخذ Stable Diffusion في اتجاهات جذرية جديدة. وقد حقق الأشخاص نتائج غير متوقعة باستخدام تقنية تسمى "img2img" والتي قامت "بترقية" فن لعبة MS-DOS ، وتحويل رسومات Minecraft إلى رسومات واقعية، وتحويل مشهد من فيلم "علاء الدين" Aladdin إلى مشهد ثلاثي الأبعاد، وترجمة الخربشات الطفولية إلى رسوم توضيحية غنية، وغير ذلك الكثير. قد يجلب تركيب الصور القدرة على تصور الأفكار بشكل ثري لجمهور كبير، مما يقلل من الحواجز أمام الدخول مع تسريع قدرات الفنانين الذين يتبنون التكنولوجيا، مثلما فعل برنامج الفوتوشوب في التسعينيات.

يمكنك تشغيل Stable Diffusion محلياً بنفسك إذا اتبعت سلسلة من الخطوات الغامضة إلى حد ما. وإذا لم تكن تميل إلى التقنية المعقدة، يمكنك تجربة العرض التوضيحي عبر الإنترنت.

كيف يعمل Stable Diffusion

بشكل عام، تستخدم معظم الموجات الحديثة من ISMs تقنية تسمى الانتشار الكامن. في الأساس، يتعلم الأنموذج التعرف على الأشكال المألوفة في مجال الضوضاء الخالصة، ثم يقوم بالتركيز على هذه العناصر تدريجياً إذا كانت تتطابق مع الكلمات في الموجه.

للبدء، يقوم شخص أو مجموعة بتدريب الأنموذج بجمع الصور مع البيانات الوصفية (مثل العلامات البديلة والتعليقات التوضيحية الموجودة على الويب) وتشكيل مجموعة كبيرة من البيانات. في حالة Stable Diffusion، يستخدم Stability AI مجموعة فرعية من مجموعة الصور، والتي هي في الأساس تجميع ضخم للصور من 5 مليارات صورة متاحة للجمهور على الإنترنت. نتيجة لذلك، استوعب Stable Diffusion أنماط العديد من الفنانين الأحياء، وتحدث بعضهم بقوة ضد هذه الممارسة التي تشبه سرقة الإبداع.

ثم يتدرب الأنموذج على مجموعة بيانات الصورة باستخدام بنك من مئات وحدات معالجة الرسومات المتطورة. وأثناء عملية التدريب، يربط الأنموذج الكلمات بالصور بفضل تقنية تسمى CLIP (اللغة المتباينة - التدريب المسبق على الصورة)، والتي اخترعتها شركة OpenAI وتم الإعلان عنها العام الماضي فقط.

من خلال التدريب، يتعلم ISM الذي يستخدم الانتشار الكامن الارتباطات الإحصائية حول المكان الذي تنتمي إليه وحدات البكسل الملونة عادةً فيما يتعلق ببعضها البعض لكل موضوع. لذلك لا "يفهم" بالضرورة علاقتهما على مستوى عالٍ، لكن النتائج يمكن أن تظل مذهلة ومدهشة، ما يجعل الاستدلالات ومجموعات الأنماط تبدو ذكية جداً. بعد اكتمال عملية التدريب لا يكرر الأنموذج أبداً أي صور في المجموعة المصدر ولكن يمكنه بدلاً من ذلك إنشاء مجموعات جديدة من الأنماط بناءً على ما تعلمه. يمكن أن تكون النتائج مبهجة وممتعة للغاية.

في الوقت الحالي، لا يهتم Stable Diffusion إذا كان لدى الشخص ثلاثة أذرع، أو رأسان، أو ستة أصابع في كل يد، لذلك من الضروري للحصول على نتائج رائعة (والتي يطلق عليها أحياناً فنانو الذكاء الاصطناعي "هندسة سريعة") فربما تحتاج إلى إنشاء الكثير من الصور واختيار أفضلها. ضع في اعتبارك أنه كلما تطابق الأمر الفوري مع التسميات التوضيحية للصور المعروفة في مجموعة البيانات زادت احتمالية حصولك على النتيجة التي تريدها. في المستقبل، من المحتمل أن تتحسن النماذج بدرجة كافية لتقليل الحاجة إلى انتقاء النوع المحدد- أو أن نوعاً ما من المرشحات الداخلية سوف تقوم بالاختيار نيابة عنك.

المخاوف الأخلاقية والقانونية

كما تم التلميح أعلاه، أثار إصدار Stable Diffusion العلني أجراس الإنذار بين الأشخاص الذين يخشون تأثيره الثقافي والاقتصادي. إن بيانات تدريب Stable Diffusion متاحة لأي شخص لاستخدامها دون أي قيود صارمة. يتضمن إصدار Stable Diffusion الرسمي مرشحات تلقائية وعلامة تتبع مائية غير مرئية مضمنة في الصور، ولكن يمكن التحايل على هذه القيود بسهولة في التعليمات البرمجية مفتوحة المصدر. هذا يعني أنه يمكن استخدام Stable Diffusion لإنشاء صور يحظرها OpenAI حالياً مثل: الدعاية والصور العنيفة والمواد الإباحية والصور التي من المحتمل أن تنتهك حقوق الطبع والنشر للشركة، والتزييف العميق للمشاهير والمزيد.

لكي نكون واضحين، فإن ترخيص Stable Diffusion يحظر رسمياً العديد من هذه الاستخدامات، ولكن مع وجود الكود والأوزان في البرية، سيتبين أن التنفيذ صعب للغاية، إن لم يكن مستحيلاً. عند تقديم هذه المخاوف، قال موستاك إنه يشعر بفوائد وجود هذا النوع من الأدوات في العلن حيث يمكن فحصها لتجاوز العيوب المحتملة. في مقابلة قصيرة، أخبرنا "نحن نؤمن بالمسؤولية الفردية والوكالة. لقد أدرجنا سياسة الاستخدام الأخلاقي والأدوات لتخفيف الضرر".

أيضاً أثار Stable Diffusion غضب الفنانين على تويتر بسبب قدرة الأنموذج على تقليد أسلوب الفنانين الأحياء. رغم أن Stability AI لم تعلن أبداً عن هذه القدرة.

في البحث عن البيانات، استخدمت مجموعة الصور لتدريب Stable ليشمل النشر ملايين القطع الفنية التي تم جمعها من فنانين أحياء دون استشارة الفنانين، ما يثير أسئلة أخلاقية عميقة حول التأليف وحقوق النشر.

نتيجة لذلك، إذا تم تبني تقنية تركيب الصور من قبل الشركات الكبرى في المستقبل (والتي قد تكون قريباً - "لدينا علاقة تعاونية مع Adobe" ، كما يقول موستاك) ، فقد تدرب الشركات نماذجها الخاصة بناءً على بيانات "نظيفة" مثل المجموعة التي تتضمن محتوى مرخصاً ومحتوى قابلاً للاشتراك وصور المجال العام لتجنب بعض هذه المشكلات الأخلاقية، حتى إذا كان استخدام مجموعات الإنترنت قانونياً من الناحية الفنية. سألنا موستاك إذا كان لديه أي خطط على هذا المنوال، فأجاب: يعمل Stable Diffusion على مجموعة من النماذج. جميع النماذج من جانبنا والمتعاونين معنا قانونية في نطاق صلاحياتهم.

هناك مشكلة أخرى تتعلق بنماذج الانتشار من جميع البائعين وهي التحيز الثقافي. نظراً لأن ISMs تعمل حالياً عن طريق تجريف الإنترنت للصور والبيانات الوصفية ذات الصلة، فإنهم يتعلمون الصور النمطية الاجتماعية والثقافية الموجودة في مجموعة البيانات. على سبيل المثال، في وقت مبكر من الإصدار التجريبي من Stable Diffusion على خادم Discord الخاص به، وجد المختبرون أن كل طلب تقريباً لـ "امرأة جميلة" يتضمن عُرياً غير مقصود من نوع ما، ما يعكس كيف يصور المجتمع الغربي النساء غالباً على الإنترنت. تكثر الصور النمطية الثقافية والعنصرية الأخرى في بيانات تدريب ISM ، لذلك يحذر الباحثون من أنه لا ينبغي استخدامها في بيئة إنتاج من دون وجود ضمانات مهمة، وهو على الأرجح أحد الأسباب وراء عدم استمرار النماذج القوية الأخرى متاحة على نطاق واسع للجمهور.

في حين أن المخاوف بشأن التحيز وجودة مجموعة البيانات، لها صدى قوي بين بعض الباحثين في مجال الذكاء الاصطناعي، تظل شبكة الإنترنت أكبر مصدر للصور مع البيانات الوصفية المرفقة. يمكن الوصول إلى هذه المجموعة من البيانات مجاناً، لذلك ستكون دائماً هدفاً مغرياً لمطوري ISMs. إن محاولة كتابة تعليقات وصفية يدوياً لملايين أو بلايين الصور لمجموعة بيانات أخلاقية جديدة تماماً قد لا تكون مجدية اقتصادياً في الوقت الحالي، لذا فإن البيانات شديدة التحيز على الإنترنت هي التي تجعل هذه التقنية ممكنة حالياً. نظراً لعدم وجود رؤية عالمية للعالم عبر الثقافات، فمن المحتمل أن تظل نماذج تركيب الصور التي ترشح أو تفسر أفكاراً معينة بمثابة حكم قيمي بين المجتمعات المختلفة التي تستخدم التكنولوجيا في المستقبل.

وماذا بعد؟

إذا كانت الاتجاهات التاريخية في الحوسبة تشير إلى أي اقتراح، فإن الاحتمالات كبيرة بأن ما يتطلب الآن وحدة معالجة رسومات ضخمة سيكون ممكناً في النهاية على هاتف الجيب الذكي. أخبرنا موستاك أنه "من المحتمل أن يعمل Stable Diffusion على هاتف ذكي في غضون عام". أيضاً، ستسمح التقنيات الجديدة بتدريب هذه النماذج على معدات أقل تكلفة بمرور الوقت. قد ننظر قريباً إلى انفجار في الإنتاج الإبداعي الذي يغذيه الذكاء الاصطناعي.

بدأ Stable Diffusion والنماذج الأخرى بالفعل في تولي توليد الفيديو الديناميكي ومعالجته، لذا توقع إنشاء فيديو واقعي عبر مطالبات نصية خلال مدة قصيرة. لذا من المنطقي توسيع هذه الإمكانات لتشمل الصوت والموسيقى وألعاب الفيديو في الوقت الفعلي وتجارب الواقع الافتراضي ثلاثية الأبعاد. قريباً، قد يقوم الذكاء الاصطناعي المتقدم بمعظم الأعمال الإبداعية مع بعض الاقتراحات فقط. تخيل ترفيهاً غير محدود يتم إنشاؤه في الوقت الفعلي وعند الطلب.

من المحتمل أن تكون نماذج تركيب الصور الواقعية خطيرة لأسباب سبق ذكرها، مثل إنشاء دعاية أو معلومات مضللة، والتلاعب بالتاريخ، وتسريع الانقسام السياسي، وتمكين هجمات انتحال الهوية، وتدمير القيمة القانونية للأدلة المصورة أو الفيديو. في المستقبل المدعوم بالذكاء الاصطناعي، كيف سنعرف ما إذا كانت أي قطعة وسائط تم إنتاجها عن بُعد جاءت من كاميرا فعلية، أو إذا كنا نتواصل بالفعل مع إنسان حقيقي؟ حول هذه الأسئلة، فإن مصطفى متفائل على نطاق واسع. وقال: ستكون هناك أنظمة تحقق جديدة مطبقة، والإصدارات المفتوحة مثل هذه ستغير النقاش العام وتطوير هذه الأدوات.

القول أسهل من الفعل بالطبع. لكن من السهل أيضاً أن تخاف من الأشياء الجديدة. على الرغم من الجهود التي نبذلها، من الصعب أن نعرف بالضبط كيف ستؤثر علينا تقنيات تركيب الصور وغيرها من التقنيات التي تعمل بالذكاء الاصطناعي على نطاق مجتمعي دون رؤيتها في نطاق واسع. في نهاية المطاف، سوف تتكيف الإنسانية، حتى لو تغيرت أطرنا الثقافية بشكل جذري في هذه العملية. لقد حدث ذلك من قبل، ولهذا قال الفيلسوف اليوناني القديم هيراكليتس "الثابت الوحيد هو التغيير". في الواقع، هناك صورة له وهو يقول ذلك الآن، بفضل برنامج Stable Diffusion.

----

بقلم: بينج إدواردز

ترجمة عن موقع: Ars Technica